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翻译 完 《 深 度 学 习 入 门 : 基于 Python 的 理论 与 实现 》 后 不 久 ， 作 者 帝 蔽 
康 毅 又 高 产地 出 版 了 续 作 ， 专 门 讲 解 深度 学 习 在 自然 语言 处 理 中 如 何 应 用 。 
翻 到 本 书 的 前 言 ， 理 查 德 ， 费 曼 所 说 的 “ 凡 我 不 能 创造 的 ， 我 就 不 能 理解 。 
(“What I cannot create, I do not understand." ) 这 句 话 跃然 纸 上 ， 而 这 各 
话 在 我 为 前 作 所 写 的 译 者 序 中 也 有 提 及 。 看 来 我 和 作者 都 比较 认同 这 样 一 个 
观点 : 如 果 想 真正 和 弄 清 楚 一 件 事情 ， 就 需要 躬 行 实践 。 这 或 许 也 是 一 种 缘分 ， 
所 以 我 决定 继续 完成 续 作 的 翻译 工作 。 

本 书 延 续 了 前 作 的 理念 ， 但 关注 的 应 用 领域 不 同 : 前 作 的 内 容 以 卷 积 神 
经 网 络 和 图 像 识 别 为 主 ， 而 本 书 则 侧重 于 循环 神经 网 络 和 自然 语言 处 理 。 本 
书 详细 介绍 了 单词 向 量 、LSTM、seq2seq 和 Attention 等 自然 语言 处 理 中 重 
要 的 深度 学 习 技 术 。 

当然 ， 自 然 语 言 处 理 是 一 个 综合 性 的 研究 领域 ,涉及 语法 、 语 义 和 语 境 
等 概念 ， 有 许多 研究 分 支 。 除 了 深度 学 习 这 一 研究 范式 之 外 ， 还 有 基于 语言 
学 、 基 于 规则 、 基 于 机 器 学 习 的 研究 范式 。 本 书 涉及 的 单词 含义 、 语 言 模型 、 
文本 生成 只 是 其 研究 范围 的 一 小 部 分 。 读 者 如 果 想 更 加 全 面 地 了 解 自然 语言 
处 理 ， 还 需要 阅读 更 多 相关 资料 。 

前 作出 版 后 ,很 多 读者 在 书评 网 站 或 者 图 灵 社 区 反馈 翻译 得 不 错 。 不 过 ， 
在 翻译 前 作 时 ， 因 为 过 于 追求 “ 信 ”， 有 时 在 语句 的 连贯 性 上 稍 有 欠缺 , 个 






































xii | xxm 











别 地 方 读 起 来 甚至 有 些 别 扭 。 为 此 , 本 书 的 翻译 在 保证 原文 含义 不 变 的 情况 下 ， 
更 多 地 使 用 了 符合 中 文 表达 习惯 的 表述 方式 ， 以 求 读者 在 阅读 本 书 时 ， 会 有 
更 佳 的 阅读 体验 。 

本 书 的 翻译 由 本 人 独立 完成 ,特别 感 谢 图 灵 的 编辑 对 全 书 的 审 校 。 最 后 ， 
由 于 译 者 水 平 有 限 ， 书 中 难免 存在 一 些 错误 与 牙 漏 。 欢 迎 各 位 读者 批评 指正 ， 
将 发 现 的 问题 通过 图 灵 社 区 反馈 给 我 们 ， 以 便 我 们 在 本 书 重印 时 进行 改正 。 
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陆 宇 杰 
2020 年 2 月 于 上 海 
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Ii 


凡 我 不 能 创造 的 ， 我 就 不 能 理解 。 
一 一 理 查 德 . 费 曼 





深度 学 习 正在 深刻 地 改变 这 个 世界 。 没 有 深度 学 习 ， 智 能 手机 的 语音 识 
别 、Web 的 实时 翻译 、 汇 率 的 预测 都 无 从 谈 起 。 得 益 于 深度 学 习 ， 新 药 的 
研发 、 患 者 的 诊断 、 汽 车 的 自动 各 驶 都 在 渐渐 成 为 现实 。 除 此 以 外 ， 几 乎 所 
有 的 高 新 技术 背后 都 有 深度 学 习 的 刁 影 。 今 后 ， 世 界 将 因 深 度 学 习 而 前 进 得 
更 远 。 

本 书 是 《深度 学 习 入 门 : 基于 Python 的 理论 与 实现 》 的 续 作 ， 我 们 将 在 
前 作 的 基础 上 讨论 深度 学 习 的 相关 技术 。 特 别 是 ， 本 书 将 专注 于 自然 语言 处 
理 和 时 序数 据 处 理 ， 使 用 深度 学 习 挑 战 各 种 各 样 的 任务 。 另 外 ， 本 书 继承 了 
前 作 “ 从 零 开始 创建 ”的 理念 ， 让 读者 充分 体验 深度 学 习 相 关 的 高 新 技术 。 





























本 书 的 理念 








笔者 认为 ， 要 深入 理解 深度 学 习 (或 者 某 个 高 新 技术 ),“ 从 零 开 始 创 建 ” 
的 经 验 非常 重要 。 从 零 开 始 创建 ， 是 指 从 自己 可 以 理解 的 地 方 出 发 ， 在 尽量 
不 使 用 外 部 现成 品 的 情况 下 ， 实 现 目 标 技 术 。 本 书 的 目标 就 是 通过 这 样 的 过 
程 来 切实 掌握 深度 学 习 ( 而 不 是 仅 停留 在 表面 )。 
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说 到 底 ， 要 深入 理解 某 项 技术 ， 至 少 应 掌握 创建 它 所 需 的 知识 和 技能 。 
因为 本 书 要 从 零 开 始 创 建 深度 学 习 ， 所 以 我 们 会 编写 很 多 程序 ， 进 行 很 多 实 
验 。 这 个 过 程 相当 费时 ， 有 时 还 很 费 脑 。 不 过 ， 在 这 些 费 时 的 工作 ( 甚至 这 
样 的 工作 本 身 ) 中 包含 许多 对 深入 理解 技术 非常 重要 的 精髓 。 如 此 获得 的 知 
识 ， 对 于 使 用 既 有 库 、 阅 读 最 前 沿 的 论文 、 开 发 原创 系统 都 非常 有 帮助 。 此 
外 ， 最 重要 的 是 ,一 步 一 步 地 理解 深度 学 习 的 结构 和 原理 这 件 事 本 身 就 很 
有 趣 。 


























进入 自然 语言 处 理 的 世界 


本 书 的 主题 是 基于 深度 学 习 的 自然 语言 处 理 。 简 言 之 ， 自 然 语 言 处 理 是 
让 计算 机 理解 我 们 日 常 所 说 的 语言 的 技术 。 让 计算 机 理解 我 们 所 说 的 语言 是 
一 件 非常 难 的 事情 ， 同 时 也 非常 重要 。 实 际 上 ， 自 然 语 言 处 理 技术 已 经 极 大 
地 改变 了 我 们 的 生活 。Web 检索 、 机 器 翻译 、 语 音 助理 ， 这 些 对 世界 产生 
了 重大 影响 的 技术 在 底层 都 用 到 了 自然 语言 处 理 技术 。 

如 上 所 述 ， 我 们 的 生活 已 经 离 不 开 自 然 语言 处 理 技 术 。 在 这 个 领域 中 ， 
深度 学 习 也 占有 非常 重要 的 地 位 。 实 际 上 ， 深 度 学 习 极 大 地 改善 了 传统 自然 
语言 处 理 的 性 能 。 比 如 ， 谷 歌 的 机 融 翻 译 性 能 就 基于 深度 学 习 获 得 了 显著 
提升 。 

本 书 将 围绕 自然 语言 处 理 和 时 序数 据 处 理 ， 来 介绍 深度 学 习 的 重要 技 
巧 ， 具 体 包 括 word2vec, RNN, LSTM, GRU, seq2seq 和 Attention 等 。 
本 书 将 尽 可 能 地 用 简洁 的 语言 来 解释 这 些 技术 ， 并 通过 实际 创建 它们 来 帮助 
读者 加 深 理解 。 男 外 ， 通 过 实验 ， 我 们 将 实际 感受 到 它们 的 潜力 。 

本 书 从 深度 学 习 的 视角 探索 自然 语言 处 理 。 全 书 一 共 8 章 ， 建 议 读者 像 
读 连 载 故 事 一 样 ， 从 头 开 始 顺序 阅读 。 在 遇 到 问题 时 ， 我 们 会 先 想 办 法 解决 
问题 ， 然 后 再 改进 解决 办 法 。 按 照 这 种 流程 ， 我 们 以 深度 学 习 为 武器 ， 解 决 
关于 自然 语言 处 理 的 各 种 问题 。 通 过 这 次 探险 ,希望 读者 能 深入 理解 深度 学 
习 中 的 重要 技巧 ， 并 体会 到 它们 的 有 趣 之 处 。 




























































































本 书面 向 的 读者 





本 书 是 《深度 学 习 入 门 : 基于 Python 的 理论 与 实现 》 的 续 作 ， 因 此 假 











定 读者 已 经 学 习 了 前 作 的 内 容 。 但 是 ， 作 为 回顾 ， 本 书 第 1 章 会 复习 一 下 神 


经 网 络 。 














因此 ， 即 便 没 有 读 过 前 作 ， 只 要 具有 神经 网 络 和 Python 相关 的 知 








识 ， 就 也 可 以 阅读 本 书 。 
为 了 让 读者 深入 理解 深度 学 习 ， 本 书 将 继承 前 作 的 理念 ， 以 “创建 "“ 运 


f" x 











P 心 展开 话题 。 不 使 用 自己 不 理解 的 东西 ， 只 使 用 自己 理解 的 东西 ， 








我 们 将 坚定 这 样 的 立场 ， 去 探索 深度 学 习 和 自然 语言 处 理 的 世界 。 
为 了 明确 本 书 的 读者 对 象 ， 这 里 将 本 书 的 内 容 和 特征 列举 如 下 。 








不 依赖 外 部 库 ， 从 零 开 始 实现 深度 学 习 的 程序 

作为 《深度 学 习 入 门 : 基于 Python 的 理论 与 实现 》 的 续 作 ， 围 绕 
自然 语言 处 理 和 时 序数 据 处 理 中 用 到 的 深度 学 习 技术 进行 讲解 
提供 可 以 运行 的 Python 源 代 码 ， 让 读者 能 够 方便 地 进行 实验 

尽 可 能 地 用 简洁 的 语言 和 清晰 的 图 示 进 行 说 明 

虽然 也 会 使 用 数学 式 ， 但 更 注重 基于 源 代码 进行 解释 

重视 原理 ， 比 如 “为 什么 这 个 方法 更 好 ?”“ 为 什么 这 样 有 效 ?"“ 为 
什么 这 样 有 问题 ?” 等 


另外 ， 这 里 将 从 本 书 中 可 以 学 到 的 技术 列举 如 下 。 


基于 了 Python 的 文本 处 理 

深度 学 习 之 前 的 “单词 ”表示 方法 

用 于 获取 单词 向 量 的 word2vec ( CBOW 模型 和 skip-gram 模型 ) 
加 快 大 规模 数据 的 训练 速度 的 Negative Sampling 

处 理 时 序数 据 的 RNN、LSTM 和 GRU 

处 理 时 序数 据 的 误差 反 向 传播 法 ( Backpropagation Through Time ) 


xi ”| 前 言 





e 进行 文本 生成 的 神经 网 络 
e 将 一 个 时 序数 据 转 化 为 另 一 个 时 序数 据 的 seq2seq 
e 关注 重要 信息 的 Attention 








本 书 将 以 通俗 易 懂 的 方式 详细 解释 这 些 技术 ， 以 便 读者 能 在 实现 层面 掌 
握 它们 。 在 讲解 这 些 技术 时 ， 本 书 不 会 单单 列举 事实 ， 而 是 会 像 故事 连载 一 
样 展 开 氢 述 。 




















本 书 不 面向 的 读者 


明确 本 书 不 适合 什么 样 的 读者 也 很 重要 ， 为 此 ， 这 里 将 本 书 不 会 涉及 的 
内 容 列 举 如 下 。 


。 不 介绍 深度 学 习 相 关 的 最 新 研究 进展 

e 不 讨论 Caffe, TensorFlow 和 Chainer 等 深度 学 习 框 架 的 使 用 方法 

e 不 提供 深度 学 习 理论 层面 的 详细 解释 

。 不 涉及 图 像 识别 、 语 音 识别 和 强化 学 习 等 主题 ( 本 书 主要 关注 自然 
语言 处 理 ) 





如 上 所 述 ， 本 书 不 涉及 最 新 研究 和 理论 细节 。 但 是 ， 读 完 本 书 之 后 ， 读 
者 应 该 有 能 力 去 研究 那些 最 新 的 论文 或 者 自然 语言 处 理 相 关 的 最 前 沿 技术 。 





运行 环境 

















本 书 提供 了 Python 3 的 源 代码 ,读者 可 以 自己 动手 实际 运行 这 些 源 代 
码 。 通 过 边 读 代 码 边 思考 ， 并 尝试 自己 想到 的 新 思路 ， 可 以 帮助 自己 巩固 所 
学 知识 。 本 书 中 用 到 的 源 代码 可 以 从 以 下 网 址 下 载 : 




















前 言 xvii 





https:/ /www.ituring.com.cn/book/26787 


APD Hips 





台 实 现 深度 学 习 。 因 此 ， 我 们 的 方针 是 尽量 不 使 用 








外 部 库 ， 但 是 NumPy 和 Matplotlib 这 两 个 库 例 外 。 借 助 这 两 个 库 ， 我 们 
可 以 高 效 地 实现 深度 学 习 。 




















NumPy 是 用 于 数值 计算 的 库 。 该 库 提供 了 许多 用 于 处 理 高 级 数学 算法 














和 数组 (和 矩阵 ) 的 便捷 方法 。 在 本 书 的 深度 学 习 实现 中 ， 我 们 将 使 用 这 些 便 
捷 方 法 进行 高 效 的 实现 。 

Matplotlib 是 用 于 绘图 的 库 。 使 用 Matplotlib， 可 以 将 实验 结果 可 视 
化 ， 以 直观 地 确认 深度 学 习 的 学 习 过 程 。 本 书 将 使 用 这 些 库 ， 来 实现 深度 学 








习 的 算法 。 
B». 


花费 大 量 时 间 。 为 了 加 快 这 部 分 耗 时 代码 的 处 理 速度 ， 本 书 还 提供 了 能 在 



































本 书 中 的 大 部 分 源 代码 可 以 在 普通 计算 机 上 运行 ， 而 且 不 会 花 
费 太 多 时 间 。 但 是 ， 











也 是 有 一 部 分 代码 ( 特别 是 大 型 神经 网 络 的 学 习 ) 需要 

















GPU 上 运行 的 代码 (机 制 )。 iic PRAE QE CuPy 
如 果 你 有 一 台 装 有 NVIDIA GPU 的 机 器 ， 通 过 安装 


会 在 第 1 章 介绍 )。 


CuPy， 可 以 在 GPU 上 高 速 处 理 本 书 的 部 分 代码 。 
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本 书 使 

















3 如 下 编程 语言 和 库 。 











* Python 3 


* NumPy 


e Mat 


plotlib 


e CuPy( 可 选 ) 








QD 请 至 本 页 面 











右 侧 的 “ 随 - 





下 载 " 处 下 载 本 








BB 源 代码 。 


男 外 ， 


与 本 








区 内 容 相关 的 网 址 ， 均 可 在 该 页 画 











下 方 的 “相关 文章 "(https://www.ituring.com.cn/article/510370) 处 查询 。 一 一 编者 注 





技术 已 经 进步 到 了 可 以 轻松 进行 复制 的 时 代 。 当 下 是 一 个 可 以 轻松 复制 
照片 、 视 频 、 源 代码 和 库 的 便捷 世界 。 但 是 ， 无 论 技术 多 么 发 达 ， 生 活 多 么 
便利 ， 经 验 都 是 无 法 轻松 复制 的 。 自 己 动手 的 经 验 、 花 时 间 思 考 的 经 验 ， 都 
是 无 法 复制 的 。 而 那些 永恒 的 价值 ， 正 存在 于 这 些 无 法 复制 的 事物 中 。 

前 言 到 此 结束 ， 让 我 们 再 次 踏 上 学 习 深 度 学 习 的 旅途 吧 ! 























表述 规则 
本 书 在 表述 上 采用 如 下 规则 。 


粗 体 字 ( Bold ) 


用 来 表示 新 引入 的 术语 、 强 调 的 要 点 以 及 关键 短语 。 





等 宽 字 ( Constant Width ) 





用 来 表示 下 面 这些 信 息 : 程序 代码 、 命 令 、 序 列 、 组 成 元 素 、 语 句 选 
项 、 分 支 、 变 量 、 属 性 、 键 值 、 函 数 、 类 型 、 类 、 命 名 空间 、 方 法 、 模 块 、 
属性 、 参 数 、 值 、 对 象 、 事 件 、 事 件 处 理 器 、XML 标签 、HTML 标签 、 
宏 、 文 件 的 内 容 、 来 自命 令 行 的 输出 等 。 若 在 其 他 地 方 引用 了 以 上 这 些 内 容 
(如 变量 、 函 数 、 关 键 字 等 )， 也 会 使 用 该 格式 标记 。 





























等 宽 粗 体 字 (Constant Width Bold) 





用 来 表示 用 户 输入 的 命令 或 文本 信息 。 在 强调 代码 的 作用 时 也 会 使 用 该 
格式 标记 。 





前 言 Xix 





等 宽 斜 体 字 (Constant Width Italic) 





用 来 表示 必须 根据 用 户 环境 替换 的 字符 串 。 


表示 源 代码 的 文件 位 置 。 












































来 表示 提示 、 启 示 以 及 某 些 值 得 深入 研究 的 内 容 的 补充 信息 。 









































表示 程序 库 中 存在 的 bug 或 经 常会 友 生 的 问题 等 警告 信息 ，5 引 起 读 
者 对 该 处 内 容 的 注意 。 




















读者 意见 与 咨询 





虽然 笔者 已 经 尽 最 大 努力 对 本 书 的 内 容 进 行 了 检查 与 确认 ， 但 是 仍 不 免 
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第 1 章 
神经 网 络 的 复习 


用 一 种 以 上 的 方法 认识 一 个 事物 ， 才 能 真正 理解 它 。 
一 一 马 文明 斯 基 (计算 机 科学 家 、 认 知 科学 家 ) 


本 书 是 《深度 学 习 入 门 : 基于 Python 的 理论 与 实现 》 的 续 作 ， 将 进一步 
深入 探索 深度 学 习 的 可 能 性 。 本 书 和 前 作 一 样 ， 不 使 用 既 有 的 库 和 框架 ，, 重 
视 “ 从 零 开始 创建 "， 通 过 亲自 动手 ， 来 探寻 深度 学 习 相 关 技术 的 乐趣 和 深度 。 
本 章 我 们 将 复习 一 下 神经 网 络 。 也 就 是 说 ， 本 章 相当 于 前 作 的 摘要 。 此 
外 ， 本 书 更 加 重视 效率 ， 对 前 作 中 的 部 分 代码 规范 进行 了 修改 〈 比如， 方法 
名 和 参数 的 命名 方法 等 )。 关 于 这 一 点 ， 我 们 也 会 在 本 章 进行 确认 。 


I 























1.4 数学 和 Python 的 复习 





我 们 先 来 复习 一 下 数学 。 具 体 来 说 ， 就 是 以 神经 网 络 的 计算 所 需 的 向 
量 、 和 矩阵 等 为 主题 展开 讨论 。 为 了 顺利 地 切入 神经 网 络 的 实现 ， 这 里 将 一 并 
展示 相应 的 Python 代码， 特别 是 基于 NumPy 的 代码 。 











lx 








1.1.1 ÆA 


在 神经 网 络 中 ， 向 量 和 和 矩阵 〈 或 者 张 量 ) 随处 可 见 。 本 节 将 对 这 些 术 语 
进行 简单 的 整理 ， 为 读 考 阅读 本 书 做 准备 。 
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我 们 从 向 量 开始 。 向 量 是 同时 拥有 大 小 和 方向 的 量 。 向 量 可 以 表示 为 
排 成 一 排 的 数字 集合 ， 在 Python 实现 中 可 以 处 理 为 一 维 数组 。 与 此 相对 ， 
和 矩阵 是 排 成 二 维 形状 ( 长 方 阵 ) 的 数字 集合 。 向 量 和 甜 阵 的 例子 如 图 1-1 
所 示 。 





























1-1 向 量 和 矩阵 的 例子 


如 图 1-1 所 示 ， 癌 量 和 和 矩阵 可 以 分 别 用 一 维 数组 和 二 维 数 组 表示 。 另 
外 ， 在 矩阵 中 ， 将 水 平方 向 上 的 排列 称 为 行 (row )， 将 垂直 方向 上 的 排列 
称 为 列 ( column )。 因 此 ， 图 1-1 中 的 矩阵 可 以 称 为 “3 行 2 列 的 矩阵 ”， 记 
为 “3 x 2 的 矩阵 ”。 


W 将 向 量 和 和 矩阵 扩展 到 N 维 的 数据 集合 ， 就 是 张 量 。 


向 量 是 一 个 简单 的 概念 ， 请 注意 有 两 种 方式 表示 向 量 。 如 图 1-2 所 示 ， 
一 种 是 在 垂直 方向 上 排列 〈 列 向 量 ) 的 方法 ， 另 一 种 是 在 水 平方 向 上 排列 
( 行 向 量 ) 的 方法 。 















































|t 
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1 
2 (1 9 37 
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列 向 量 行 向 量 











1-2 ”向 量 的 表示 方法 





在 数学 和 深度 学 习 等 许多 领域 ,向 量 一 般 作为 列 向量 处 理 。 不 过 ， 考 


虑 到 实现 层面 的 一 致 性 ， 本 书 将 向 量 作为 行 向 量 处 理 〈 每 次 者 
量 )。 此 外 ,在 数学 式 中 写 向 量 或 矩阵 时 ， 会 用 z 或 全 等 粗 体 表示 ， 以 将 


























会 注 明 是 行 向 


它们 与 单个 元 素 (标量 ) 区 分 开 。 在 源 代码 中 ,会 用 x 或 Ww 这 样 的 字体 表示 。 






































在 Python 的 实现 中 ， 在 将 向 量 作为 行 向 量 处 






































向 量 明 确 变 形 为 水 平方 向 上 的 和 矩阵。 比如， 当 









































里 的 情况 下 ， 会 将 
向 量 的 元 素 个 数 是 

















和 时， 将 其 处 理 为 形状 为 1 x Y 的 矩阵。 我 们 











百 面 会 看 


个 具体 








的 例子 。 





下 面 ， 我 们 使 用 Python 的 对 话 模式 来 生成 向 量 和 珑 阵 。 当 然 ， 














使 用 处 理 和 矩阵 的 标准 库 NumPy。 








>>> import numpy as np 


>>> x = np.array([1, 2, 3]) 
>>> X. class 4$ 输出 类 名 
«class 'numpy.ndarray'» 
>>> x.shape 

(3,) 

>>> x.ndim 

1 


>>> W = np.array([[1, 2, 3], [4, 5, 611) 
>>> W.shape 

(2, 3) 

>>> W.ndim 

2 





这 里 将 
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如 上 所 示 ， 可 以 使 用 np.array() 方法 生成 向 量 或 矩阵 。 该 方法 会 生成 
NumPy 的 多 维 数组 类 np.ndarray。np.ndarray 类 有 许多 便捷 的 方法 和 实例 
变量 。 上 面 的 例子 中 使 用 了 实例 变量 shape 和 ndim, shape 表示 多 维 数组 的 
形状 ，ndim 表示 维 数 。 从 上 面 的 结果 可 知 ，x 是 一 维 数组 ， 是 一 个 元 素 个 数 
为 3 的 向 量 ; 而 是 一 个 二 维 数组 ， 是 一 个 2 x 3 (2 行 3 列 ) WEE, 























1.1.2 ”和 矩阵 的 对 应 元 素 的 运算 


前 面 我 们 把 数字 的 集合 组 织 为 了 向 量 或 怎 阵 ， 现 在 利用 它们 进行 一 些 简 
单 的 运算 。 首 先 ， 我 们 看 一 下 “对 应 元 素 的 运算 ”。 顺 便 说 一 下 ,“ 对 应 元 素 
的 ”的 英文 是 “element-wise”。 








>>> W = np.array([[1, 2, 3], [4, 5, 6]]) 
>>> X = np.array([[0, 1, 2], [3, 4, 511) 
>> W+X 
array([[ 1; 3; 5], 

[7, 9, 11]1) 
>>> W*X 
array([[ 0, 2, 6], 

[12, 20, 30]]) 











这 里 对 NumPy 多 维 数组 执行 了 +、* 等 运算 。 此 时 ， 运 算是 对 应 多 维 
数组 中 的 元 素 (独立 ) 进行 的 ， 这 就 是 NumPy 数组 中 的 对 应 元 素 的 运算 。 














1.1.3 广播 


在 NumPy 多 维 数组 中 ， 形 状 不 同 的 数组 之 间 也 可 以 进行 运算 ， 比 如 下 
面 这 个 计算 。 





>>> A = np.array([[1, 2], [3, 4]]) 
>>> A * 10 
array([[10, 20], 

[30, 4011) 
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这 个 计算 是 一 个 2 x 2 的 矩阵 A 乘 以 标量 10。 此 时 ， 如 图 1-3 所 示 ， 标 
量 10 先 被 扩展 为 2 x 2 的 矩阵 ， 之 后 进行 对 应 元 素 的 运算 。 这 个 灵巧 的 功 
能 称 为 广播 (broadcast )。 


E Æ ZLA Æ Z Zu 
* = fap * A = 四 加 六 
on f 























1-3 广播 的 例子 1: 标量 10 被 处 理 为 2 x 2AE 


下 面 再 看 男 一 个 广播 的 例子 。 








>>> A = np.array([[1, 2], [3, 4]]) 
>>> b = np.array([10, 20]) 


s> At 
array([[10, 40], 
[30, 80]]) 





在 这 个 计算 中 ， 如 图 1-4 所 示 ， 一 维 数组 p 被 “灵巧 地 ”扩展 成 了 与 二 
数组 A 相 同 的 形状 。 

















NS 











人 L 一 APA LA "AE | 
o - EH fep] = fup 
ssp 四 四 上 











图 1-4 广播 的 例子 2 


像 这 样 ， 因 为 NumPy 有 广播 功能 ， 所 以 可 以 智能 地 执行 不 同形 状 的 数 
组 之 间 的 运算 。 




















为 了 使 NumPy 的 广播 功能 生效 ， 多 维 数 组 的 形状 需要 满足 几 个 
规则 。 关 于 广播 的 详细 规则 ， 请 参考 文献 [1] 。 
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1.1.4 向量 内 积 和 和 矩阵 乘积 


接着 ， 我 们 来 看 一 下 向 量 内 积 和 矩阵 乘积 的 相关 内 容 。 首 先 ， 向 量 内 积 
可 以 表示 为 





T: Y = T1Y1 + T2Y2 boc vun (1.1) 


这 里 假设 有 Zz = (x1,… , £n) My = (yi, ,yn) 两 个 向 量 。 此 时 ， 如 式 (1.1) 
所 示 ， 向 量 内 积 是 两 个 向 量 对 应 元 素 的 乘积 之 和 。 


句 量 内 积 直观 地 表示 了 “两 个 向 量 在 多 大 程度 上 指向 同一 方向 "。 如 
果 限定 向 量 的 大 小 为 1， 当 两 个 向 量 完全 指向 同一 方向 时 ， 它 们 的 


句 量 内 积 是 1。 有 反之， 如果 两 个 向 量 方向 相反 ， 则 内 积 为 一 1。 

































































































































































fiti 




















FARRE FEMRE., EERI IRRE 1-5 所 示 的 步 又 计算 。 








1x5+2x7 








3x5+4x7T 











1-5 ”矩阵 乘积 的 计算 方法 





如 图 1-5 Br, AREE UBI "ZSUABPERUTI MEE (水 平方 向 罗 和 
“ 右 侧 矩 阵 的 列 向 量 〈 垂 直方 向 六 的 内 积 〈 对 应 元 素 的 乘积 之 和 ) 计 算得 出 。 
此 时 ,计算 结果 保存 在 新 矩阵 的 对 应 元 素 中 。 比 如 ，A 的 第 1 行 和 B 的 第 
1 列 的 结果 保存 在 第 1 行 第 1 列 的 元 素 中 ，A 的 第 2 行 和 B 的 第 1 列 的 结 
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保存 在 第 2 行 第 1 列 的 元 素 中 。 


现在 ， 我 们 用 Python 实现 一 下 向 量 内 积 和 和 拖 阵 乘积 。 为 此 ， 可 以 利用 


np.dot()。 


的 参数 都 是 一 维 数组 时 ， 计 算 向 量 内 积 。 当 参数 都 是 二 维 数组 时 ， 计 算 和 抢 阵 


# 向量 内 积 

>>> a = np.array([1, 2, 3]) 
>>> b = np.array([4, 5, 6]) 
>>> np.dot(a, b) 

32 


# MEERE 
>>> A = np.array([[1, 2], [3, 411) 
>>> B = np.array([[5, 6], [7, 811) 
>>> np.dot(A, B) 
array([[19, 22], 

[43, 50]]) 





WER, m] RRURUABIEES RAP HI T np.dot()。 当 np.dot(x, y) 











乘积 。 





除了 这 里 看 到 的 np.dot() 方法 外 ，NumPy 还 有 很 多 其 他 的 进行 矩阵 计 


算 的 便捷 方法 。 如 果 能 熟练 掌握 这 些 方法 ， 神 经 网 络 的 实现 就 会 更 顺利 。 


熟 能 生 巧 

要 掌握 NumPy， 实 际 动手 练习 是 最 有 效 的 。 比 如 ,“100 numpy 
exercises" ?] h f£ && T 100 iÉi NumPy B8 2& 2J A. 4D ER (ELE ER 
NumPy 经 验 ， 请 挑战 一 下 。 



























































1.5 ”和 矩 阵 的 形状 检查 





在 使 用 和 矩阵 和 向 量 的 计算 中 ， 很 重要 的 一 点 就 是 要 注意 它们 的 形状 。 这 

















里 ,我 们 留意 着 矩阵 的 形状 ,再 来 看 一 下 矩阵 乘积 。 前 面 已 经 介绍 过 了 算 阵 
乘积 的 计算 步骤 ， 所 以 这 里 我 们 将 重点 放 在 图 1-6 所 示 的 “形状 检查 ”上 。 
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图 1-6 ”形状 检查 : 在 矩阵 乘积 中 ， 要 使 对 应 维度 的 元 素 个 数 一 至 





图 1-6 展示 了 基于 3 x 2 HERE A 和 2 x 4 的 矩阵 B ÆR 3 x 4 的 矩阵 
C 的 示例 。 此 时 ， 如 该 图 所 示 ， 需 要 对 章 和 矩阵 A 和 和 矩阵 B 的 对 应 维度 的 元 
素 个 数 。 作 为 计算 结果 的 矩阵 C 的 形状 由 A 的 行 数 和 B 的 列 数组 成 。 这 就 
是 和 矩阵 的 形状 检查 。 


在 和 矩阵 乘积 等 Do Es CUM 
常 重 要 。 据 此 ， 神 经 网 络 的 实现 可 以 更 顺利 地 进 






















































































1.2 神经 网 络 的 推理 





现在 我 们 开始 复习 神经 网 络 。 神 经 网 络 中 进行 的 处 理 可 以 分 为 学 习 和 推 
理 两 部 分 。 本 节 将 围绕 神经 网 络 的 推理 展开 说 明 ， 而 神经 网 络 的 学 习 会 在 下 


一 节 进 行 讨论 。 

















1.2.1 神经 网 络 的 推理 的 全 貌 图 

简单 地 说 ， 神 经 网 络 就 是 一 个 函数 。 函 数 是 将 某 些 输 入 变换 为 某 些 输出 
的 变换 器 ， 与 此 相同 ， 神 经 网 络 也 将 输入 变换 为 输出 。 

举 个 例子 ， 我 们 来 考虑 输入 二 维 数据 、 输 出 三 维 数据 的 函数 。 为 了 使 用 
神经 网 络 进行 实现 ， 需 要 在 输入 层 准 备 2 个 神经 元 ， PCR A 
元 。 然 后 ， 在 隐藏 层 ( 中间 层 ) 放 置 若干 神经 元 ， 这 里 我 们 放置 4 个 神经 
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这 样 一 来 ， 我 们 的 神经 网 络 就 可 以 画 成 图 1-7。 











( K > Y = 
< 区 O 
( NX) E 
一 0 D 
" ad 
输入 云 隐藏 云 输 出 层 























1-7 ”神经 网 络 的 例子 


在 图 1-7 中 ,， 用 O 〇 表示 神经 元 ， 用 箭头 表示 它们 的 连接 。 此 时 ， 在 箭 
头 上 有 和 权重， 这 个 权重 和 对 应 的 神经 元 的 值 分 别 相 乘 ， 其 和 《严格 地 讲 ， 是 
经 过 激活 函数 变换 后 的 值 ) 作为 下 一 个 神经 元 的 输入 。 另 外 ， 此 时 还 要 加 上 
一 个 不 受 前 一 层 的 神经 元 影响 的 常数 ， 这 个 常数 称 为 俩 置 。 因 为 所 有 相 邻 
的 神经 元 之 间 都 存在 由 箭头 表示 的 连接 ， 所 以 图 1-7 的 神经 网 络 称 为 全 连接 
网 络 。 


图 1-7 的 网 络 共 包 含 3 云 ， { 31X 的 属实 际 上 是 2 云 ， 本 书 中 将 
这 样 的 神经 网 络 称 为 2 层 神经 网 络 。 因 为 图 1-7 的 网 络 由 3 层 组 成 ， 


所 以 有 的 文献 也 称 之 为 3 层 神经 网 络 。 


















































































































































下 面 用 数学 式 来 表示 图 1-7 的 神经 网 络 进行 的 计算 。 这 里 用 (z1, 22) K 
示 输 入 层 的 数据 ， 用 wai 和 wo 表示 权重 ,用 bi 表示 偏 置 。 这 样 一 来 ， 图 
1-7 中 的 隐藏 层 的 第 1 个 神经 元 就 可 以 如 下 进行 计算 : 




















hi = Z1W11 十 Z2121 + bı (1.2) 





如 式 (1.2) 所 示 ， 隐 藏 层 的 神经 元 是 基于 加 权 和 计算 出 来 的 。 之 后 ， 改 
变 权 重 和 偏 置 的 值 ， 根 据 神经 元 的 个 数 ， 重 复 进行 相应 次 数 的 式 (1.2) 的 计 
算 ， 这样 就 可 以 求 出 所 有 隐藏 层 神经 元 的 值 。 
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权重 和 偏 置 都 有 下 标 ， 这 个 下 标的 规则 ( 为 何 将 下 标 设 为 11 或 12 ) 
并 不 是 很 重要 ,重要 的 是 神经 元 是 通过 加 权 和 计算 的 ， 并且 可 以 通过 和 矩阵 
乘积 整体 计算 。 实 际 上 ， 基 于 全 连接 层 的 变换 可 以 通过 和 矩阵 乘积 如 下 进行 


整理 : 

















WIl 12 13 14 
w21 W22 W23 W24 


(hı, h2, ha, ha) = (x1, £2) ( ) + (b1, b2, b3, ba) (1.3) 
这 里 ， 隐 藏 层 的 神经 元 被 整理 为 (hi, ha, ha, ha), "RI BUE E 1x 4 的 矩阵 
(或 者 行 向 量 )。 另 外 ， 输 入 是 (zl za)， 这 是 一 个 1x 2 的 矩阵。 再 者 ， 权 
重 是 2 x 4 的 矩阵， 偏 置 是 1 x4 的 矩阵。 这 样 一 来 ， 式 (1.3) 可 以 如 下 进行 
简化 : 











h=xW +b (1.4) 








这 里 ,输入 是 zx， 隐藏 层 的 神经 元 是 hh， 权重 是 W， 偏 置 是 5b， 这 些 都 是 矩 
阵 。 此 时 ， 留 意 式 (1.4) 的 和 矩阵 形状 ， 可 知 进行 了 如 图 1-8 所 示 的 变换 。 








£ W = h 
形状 : 1x2 2x4 1x4 


[| | LI | | 
| | | E 


一 致 














图 1-8 形状 检查 : 确认 对 应 维度 的 元 素 个 数 一 致 (省略 偏 置 ) 


如 图 1-8 所 示 ， 在 矩阵 乘积 中 ， 要 使 对 应 维度 的 元 素 个 数 一 致 。 通 过 像 
这 样 观察 矩阵 的 形状 ， 可 以 确认 变换 是 否 正确 。 






































否 正确 (至 少 可 以 判断 计算 是 否 成 立 )。 





` 在 矩阵 乘积 的 计算 中 ， 形 状 检查 非常 重要 。 据 此 ， 可 以 判断 计算 是 
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这 样 一 来 ,我们 就 可 以 利用 矩阵 来 整体 计算 全 连接 层 的 变换 。 不 过 ， 这 
里 进行 的 变换 只 针对 单 笔 样本 数据 ( 输入 数据 )。 在 神经 网 络 领域 ， 我 们 会 
同时 对 多 笔 样本 数据 ( 称 为 mini-batch， 小 批量 ) 进行 推理 和 学 习 。 因 此 ， 
我 们 将 单独 的 样本 数据 保存 在 矩阵 xz 的 各 行 中 。 假 设 要 将 笔 样本 数据 作 
为 mini-batch 整体 处 理 ， 关 注 矩 阵 的 形状 ， 其 变换 如 图 1-9 所 示 。 





























一 致 











图 1-9 ”形状 检查 : mini-batch 版 的 矩阵 乘积 (省 略 偏 置 ) 





如 图 1-9 所 示 ， 根 据 形 状 检查 ， 可 知 各 mini-batch 被 正确 地 进行 了 变换 。 
此 时 ，N 笔 样本 数据 整体 由 全 连接 层 进行 变换 ， 隐 茂 层 的 NN 个 神经 元 被 整 
体 计算 出 来 。 现 在 ,我们 用 Python 写 出 mini-batch 版 的 全 连接 层 变 换 。 





>>> import numpy as np 

>>> Wl = np.random.randn(2, 4) # 权重 
>>> bl = np.random.randn(4) # 偏 置 
>>> x = np.random.randn(10, 2) # 输入 
>>> h = np.dot(x, W1) + bl 





在 这 个 例子 中 ，10 笔 样本 数据 分 别 由 全 连接 层 进 行 变换 。 此 时 ，x 的 第 
1 个 维度 对 应 于 各 笔 样 本 数据 。 比 如 ，xf[9] 是 第 0 笔 输入 数据 ，x[1] 是 第 1 
笔 输 入 数据 …… 类 似 地 ，h[9] 是 第 0 笔 数据 的 隐藏 层 的 神经 元 ，h[1] 是 第 
1 笔 数 据 的 隐藏 层 的 神经 元 ， 以 此 类 推 。 


在 上 面 的 代码 中 ， 偏 置 bl 的 加 法 运算 会 触发 广播 功能 。b1 的 形状 
是 (4,) ， 它 会 被 自动 复制 ， 变 成 (10，4) 的 形状 。 
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全 连接 层 的 变换 是 线性 变换 。 激 活 函 数 赋予 它 “ 非 线 性 ”的 效果 。 严 格 
地 讲 ， 使 用 非 线性 的 激活 函数 ， 可 以 增强 神经 网 络 的 表现 力 。 激 活 函 数 有 很 
多 种 ， 这 里 我 们 使 用 式 (1.5) 的 sigmoid 函数 (sigmoid function ): 




















1 


eye 1 + exp(-z) (1.5) 


如 图 1-10 所 示 ，sigmoid 函数 呈 S 形 曲 线 。 








1.04 


0.8 4 


0.24 








0.0 4 














图 1-10 sigmoid 函数 的 图 像 
sigmoid 函数 接收 任意 大 小 的 实数 ， 输 出 0 ~ 1 的 实数 。 现 在 我 们 用 
Python 来 实现 这 个 sigmoid KA 


def sigmoid(x): 
return 1 / (1 + np.exp(-x)) 





这 是 式 (1.5) 的 直接 实现 ， 应 We 现在 ， 我 们 使 用 这 
个 sigmoid 函数 ， 来 变换 刚才 的 隐藏 层 的 神经 
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>>> a = sigmoid(h) 





基于 sigmoid 函数 ， 可 以 进行 非 线 性 变换 。 然 后 ， 再 用 另 一 个 全 连接 层 
来 变换 这 个 激活 函数 的 输出 a (也 称 为 activation )。 这 里 ， 因 为 隐藏 层 有 4 
个 神经 元 ， 输 出 层 有 3 个 神经 元 ， 所 以 全 连接 层 使 用 的 权重 矩阵 的 形状 必须 
设置 为 4x 3， 这 样 就 可 以 获得 输出 层 的 神经 元 。 以 上 就 是 神经 网 络 的 推理 。 
现在 我 们 用 Python 将 这 一 段 内 容 总 结 如 下 。 




















import numpy as np 


def sigmoid(x): 
return 1 / (1 + np.exp(-x)) 


x = np.random.randn(10, 2) 
W1 = np.random.randn(2, 4) 
bl = np.random.randn(4) 
W2 = np.random.randn(4, 3) 
b2 = np.random. randn(3) 


h = np.dot(x, W1) + bl 
a = sigmoid(h) 
s = np.dot(a, W2) + b2 





这 里 ，x 的 形状 是 10, 2), Xm 10 笔 二 维 数据 组 织 为 了 1 个 mini-batch。 
最 终 输 出 的 s 的 形状 是 (109，3)。 同 样 ， 这 意味 着 10 笔 数据 一 起 被 处 理 了 ， 
每 笔 数 据 都 被 变换 为 了 三 维 数据 。 

上 面 的 神经 网 络 输出 了 三 维 数据 。 因 此 ， 使 用 各 个 维度 的 值 ， 可 以 分 为 















































3 个 类 别 。 在 这 种 情况 下 ， 输 出 的 三 维 向 量 的 各 个 维度 对 应 于 各 个 类 的 “得 
分 ”( 第 1 个 神经 元 是 第 1 个 类 别 ,第 2 个 神经 元 是 第 2 个 类 别 …… )。 在 
实际 进行 分 类 时 ， 寻 找 输 出 层 神 经 元 的 最 大 值 ， 将 与 该 神经 元 对 应 的 类 别 作 


为 结果 。 




















得 分 是 计算 概率 之 前 的 值 。 得 分 越 高 ， 这 个 神经 元 对 应 的 类 别 的 概 
率 也 越 高 。 后 面 我 们 会 看 到 ， 通 过 把 得 分 输入 Softmax 函数 ， 可 以 
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以 上 就 是 神经 网 络 的 推理 部 分 的 实现 。 接 下 来 ,我们 使 用 Python 的 类 ， 
将 这 些 处 理 实现 为 层 。 


1.2.2” 层 的 类 化 及 正 向 传播 的 实现 

现在 ， 我 们 将 神经 网 络 进行 的 处 理 实现 为 层 。 这 里 将 全 连接 层 的 变换 实 
现 为 Affine 层 ， 将 sigmoid 函数 的 变换 实现 为 Sigmoid 层 。 因 为 全 连接 层 
的 变换 相当 于 几何 学 领域 的 仿 射 变换 ， 所 以 称 为 AfEne 层 。 男 外 ， 将 各 个 层 
实现 为 Python 的 类 ， 将 主要 的 变换 实现 为 类 的 forward) 方法 。 


神经 网 络 的 推理 所 进行 的 处 理 相 当 于 神经 网 络 的 正 向 传播 。 顾 名 思 义 ， 

正 向 传播 是 从 输入 层 到 输出 层 的 传播 。 此 时 ， 构 成 神经 网 络 的 各 层 

从 输入 向 输出 方向 按 顺 序 传播 处 理 结果 。 之 后 我 们 会 进行 神经 网 络 
上 


的 学 习 ， 那 时 会 按 与 正 向 传播 相反 的 顺序 传播 数据 (梯度 )， 所 以 称 
为 反 向 传播 。 
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神经 网 络 中 有 各 种 各 样 的 层 ， 我 们 将 其 实现 为 Python 的 类 。 通 过 这 种 
模块 化 ， 可 以 像 搭 建 乐 高 积木 一 样 构建 网 络 。 本 书 在 实现 这 些 层 时 ， 制 定 以 
下 “代码 规范 ”。 


e 所 有 的 层 都 有 forward() 方法 和 backward() 方法 
o 所 有 的 层 都 有 params 和 grads 实例 变量 


简单 说 明 一 下 这 个 代码 规范 。 首 先 ，forward() 方法 和 backward() 方法 
分 别 对 应 正 向 传播 和 反 向 传播 。 其 次 ，params 使 用 列表 保存 权重 和 偏 置 等 参 
数 ( 参数 可 能 有 多 个 ， 所 以 用 列表 保存 )。grads 以 与 params 中 的 参数 对 应 
的 形式 ， 使 用 列表 保存 各 个 参数 的 梯度 ( 后 述 )。 这 就 是 本 书 的 代码 规范 。 
















































































要 遵循 这 样 的 规范 ， 以 及 它 的 有 效 性 。 




















` 遵循 上 述 代 码 规范 ， 代 码 看 上 去 会 更 清晰 。 我 们 后 面 会 说 明 为 什么 
ELN 
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因为 这 里 只 考虑 正 向 传播 ， 所 以 我 们 仅 关注 代码 规范 中 的 以 下 两 点 : 一 
是 在 层 中 实现 forward) 方法 ; 二 是 将 参数 整理 到 实例 变量 params 中 。 我 们 
基于 这 样 的 代码 规范 来 实现 层 ， 首 先 实现 Sigmoid 层 ， 如 下 所 示 (Ce chgl/ 


forward net.py )。 




















import numpy as np 


class Sigmoid: 
def | init (self): 
self.params - [] 


def forward(self, x): 
return 1 / (1 + np.exp(-x)) 


如 上 所 示 ，sigmoid 函数 被 实现 为 一 个 类 ， 主 变换 处 理 被 实现 为 
forward(x) 方法 。 这 里 ， 因 为 Sigmoid 层 没 有 需要 学 习 的 参数 ， 所 以 使 用 空 
列表 来 初始 化 实例 变量 params。 下 面 ， 我 们 接着 来 看 一 下 全 连接 层 Afhne 层 
的 实现 ， 如 下 所 示 (e chg9l/forward_net.py )。 








class Affine: 
def | init (self, W, b): 
self.params - [W, b] 


def forward(self, x): 
W, b = self.params 
out = np.dot(x, W) + b 
return out 








Affine 层 在 初始 化 时 接收 权重 和 偏 置 。 此 时 ，Afhne 层 的 参数 是 权重 和 
RE (在 神经 网 络 的 学 习 时 ， 这 两 个 参数 随时 被 更 新 )。 因 此 ， 我 们 使 用 列 
表 将 这 两 个 参数 保存 在 实例 变量 parans 中 。 然 后 ， 实 现 基于 forward G0 的 
正 向 传播 的 处 理 。 






































根据 本 书 的 代码 规范 ， 所 有 的 层 都 需要 在 实例 变量 params 中 保存 要 
学 习 的 参数 。 因 此 ,可 以 很 方便 地 将 神经 网 络 的 全 部 参数 整理 在 一 起 ， 
参数 的 更 新 操作 、 在 文件 中 保存 参数 的 操作 都 会 变 得 更 容易 。 
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XE, 我们 使 用 上 面 实现 的 层 来 实现 神经 网 络 的 推理 处 理 。 这 里 实现 如 
图 1-11 所 示 的 层 结构 的 神经 网 络 。 

















Pl Affine oY Sigmoid j| ———» Affine o> S 
































1-11 ”要 实现 的 神经 网 络 的 层 结构 


如 图 1-11 所 示 , 输入 天 经 由 Affine 层 、Sigmoid 层 和 Affine 层 后 输出 
得 分 S。 我 们 将 这 个 神经 网 络 实现 为 名 为 TwoLayerNet 的 类 ， 将 主推 理 处 理 
实现 为 predict (x) 方法 。 

















之 前 ， 我 们 在 用 图 表示 神经 网 络 时 ， 使 用 的 是 像 图 1-7 那样 的 “神经 
元 视角 ”的 图 。 与 此 相对 ,图 1-11 是 “ 层 视 角 ” 的 图 。 






















































































TwoLayerNet 的 代码 如 下 所 示 (= ch91/forward_net.py )。 


class TwoLayerNet: 
def init (self, input size, hidden size, output size): 
I, H, 0 = input size, hidden size, output size 


# 初始 化 权重 和 偏 置 

W1 = np.random.randn(I, H) 
b1 = np.random.randn(H) 

W2 = np.random.randn(H, 0) 
b2 = np.random. randn (0) 
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# 生成 层 

self.layers = [ 
Affine(Wl, b1), 
Sigmoid(), 
Affine(W2, b2) 





# 将 所 有 的 权重 整理 到 列表 中 

self.params = [] 

for layer in self.layers: 
self.params += layer.params 


def predict(self, x): 
for layer in self.layers: 
x = layer.forward(x) 


return x 





在 这 个 类 的 初始 化 方法 中 ， 首 先 对 权重 进行 初始 化 ， 生 成 3 个 层 。 然 
后 ， 将 要 学 习 的 权重 参数 一 起 保存 在 params 列表 中 。 这 里 ， 因 为 各 个 层 的 
实例 变量 params 中 都 保存 了 学 习 参 数 ， 所 以 只 需要 将 它们 拼接 起 来 即 可 。 
X 样 一 来 ，TwoLayerNet 的 params 变量 中 就 保存 了 所 有 的 学 习 参 数 。 像 这 样 ， 
过 将 参数 整理 到 一 个 列表 中 ， 可 以 很 轻松 地 进行 参数 的 更 新 和 保存 。 
此 外 ，Python 中 可 以 使 用 + 运算 符 进 行列 表 之 间 的 拼接 。 下 面 是 一 个 
简单 的 例子 。 








" 








5 

















>>> a = ['A', 'B'] 
>>> a += ['C', 'D'] 
>>> a 


[U'A', 'B', 'C', 'D'] 





如 上 所 示 ， 通 过 列表 之 间 的 加 法 将 列表 拼接 了 起 来 。 在 上 面 的 TwoLayerNet 
的 实现 中 ， 通 过 将 各 个 层 的 params 列表 加 起 来 ， 从 而 将 全 部 学 习 参 数 整 理 
到 了 一 个 列表 中 。 现 在 ， 我 们 使 用 TwoLayerNet 类 进行 神经 网 络 的 推理 。 











x = np.random. randn(10, 2) 
model = TwoLayerNet(2, 4, 3) 
s = model.predict(x) 
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这 样 就 可 以 求 出 输入 数据 x 的 得 分 s 了 。 像 这 样 ， 通 过 将 层 实现 为 类 ， 
可 以 轻松 实现 神经 网 络 。 另 外 ， 因 为 要 学 习 的 参数 被 汇总 在 model .params 
中 ， 所 以 之 后 进行 神经 网 络 的 学 习 会 更 加 容易 。 














1.3 神经 网 络 的 学 习 


不 进行 神经 网 络 的 学 习 ， 就 做 不 到 “好 的 推理 "。 因 此 ， 常 规 的 流程 是 ， 
首先 进行 学 习 ， 然 后 再 利用 学 习 好 的 参数 进行 推理 。 所 谓 推理 ， 就 是 对 上 一 
节 介 绍 的 多 类 别 分 类 等 问题 给 出 回答 的 任务 。 而 神经 网 络 的 学 习 的 任务 是 寻 
找 最 优 参数 。 本 节 我 们 就 来 研究 神经 网 络 的 学 习 。 














1.3.1 损失 函数 

在 神经 网 络 的 学 习 中 ， 为 了 知道 学 习 进 行 得 如 何 ， 需 要 一 个 指标 。 这 个 
指标 通常 称 为 损失 ( loss )。 损 失 指 示 学 习 阶 段 中 某 个 时 间 点 的 神经 网 络 的 
性 能 。 基 于 监督 数据 ( 学 习 阶段 获得 的 正确 解数 据 ) 和 神经 网 络 的 预测 结 
将 模型 的 恶劣 程度 作为 标量 (单一 数值 ) 计算 出 来 ， 得 到 的 就 是 损失 。 

计算 神经 网 络 的 损失 要 使 用 损失 函数 (loss function )。 进 行 多 类 别 分 
类 的 神经 网 络 通常 使 用 交叉 习 误 差 ( cross entropy error ) 作为 损失 函数 。 
此 时 ， 交 叉 业 误 差 由 神经 网 络 输出 的 各 类 别 的 概率 和 监督 标签 求 得 。 

现在 ， 我 们 来 求 一 下 之 前 一 直 在 研究 的 那个 神经 网 络 的 损失 。 这 里 ， 我 
们 将 Softmax 层 和 Cross Entropy Error 层 新 添加 到 网 络 中 。 用 Softmax 层 
求 Softmax 函数 的 值 ， 用 Cross Entropy Error ERZAR. WREEF 
“ 层 视 角 ” 来 绘制 此 时 的 网 络 结构 ， 则 如 图 1-12 所 示 。 
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图 1-12 使 用 了 损失 函数 的 神经 网 络 的 层 结构 








在 图 1-12 F, X EMARE, 二 是 监督 标签 , 区 是 损失 。 此 时 ，Softmax 
层 的 输出 是 概率 ， 该 概率 和 监督 标签 被 输入 Cross Entropy Error 层 。 

下 面 ， 我 们 来 介绍 一 下 Softmax KAAM SUAVE 25. Hie, Softmax 
函数 可 由 下 式 表示 : 














TN exp(ss) (1.6) 


2. exp(s;) 
i—1 





xX (1.6) 是 当 输 出 总 共有 nn 个 时 ,计算 第 上 个 输出 ye 时 的 算式 。 这 个 
yk 是 对 应 于 第 个 类 别 的 Softmax 函数 的 输出 。 如 式 (1.6) 所 示 ，Softmax 
函数 的 分 子 是 得 分 sx 的 指数 函数 ,分 母 是 所 有 输入 信号 的 指数 函数 的 和 。 

Softmax 函数 输出 的 各 个 元 素 是 0.0 ~ 1.0 的 实数 。 另 外 ， 如 果 将 这 些 
元 素 全 部 加 起 来 ， 则 和 为 1。 因此 ，Softmax 的 输出 可 以 解释 为 概率 。 之 后 ， 
这 个 概率 会 被 输入 交叉 信 误 差 。 此 时 ， 交 义 炉 误差 可 由 下 式 表示 : 


























= 一 》 tp log yk (1.7) 
k 
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这 里 ， 妇 是 对 应 于 第 天 个 类 别 的 监督 标签 。log 是 以 纳 皮尔 数 e 为 底 的 对 数 
(严格 地 说 ， 应 该 记 为 log。)。 监 督 标 签 以 one-hot 向 量 的 形式 表示 ， 比 如 
t = (0,0, 1)» 


one-hot 向 量 是 一 个 元 素 为 1， 其 他 元 素 为 0 的 向 量 。 因 为 元 素 1 对 
应 正确 解 的 类 ， 所 以 式 (1.7) 实际 上 只 是 在 计算 正确 解 标签 为 1 的 元 
LIN 


素 所 对 应 的 输出 的 自然 对 数 (log) 。 











































































































另外 ,在 考虑 了 mini-batch 处 理 的 情况 下 ， 交 叉 灶 误 差 可 以 由 下 式 
表示 : 


1 
L=-Ẹ 2 otn log Ynk (1.8) 
TL 


这 里 假设 数据 有 NÆ, tnk 表示 第 n 笔 数据 的 第 维 元 素 的 值 ，ywx 表示 神 
经 网 络 的 输出 ，tnx 表示 监督 标签 。 

x (1.8) 看 上 去 有 些 复杂 ， 其 实 只 是 将 表示 单 笔 数 据 的 损失 函数 的 式 
(1.7) 扩展 到 了 N 笔 数据 的 情况 。 用 式 (1.8) 除 以 N， 可 以 求 单 笔 数据 的 平 
均 损 失 。 通 过 这 样 的 平均 化 ， 无 论 mini-batch 的 大 小 如 何 ， 都 始终 可 以 获 
得 一 致 的 指标 。 

本 书 将 计算 Softmax KARZ SUBE ERS2E JAKA Softmax with Loss 
层 (通过 整合 这 两 个 层 ， 反 向 传播 的 计算 会 变 简 单 )。 因 此 ， 学 习 阶 段 的 神 
经 网 络 具有 如 图 1-13 所 示 的 层 结构 。 
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图 1-13 使 用 Softmax with Loss 层 输出 损失 


如 图 1-13 所 示 ， 本 书 使 用 Softmax with Loss 层 。 这 里 我 们 省 略 对 其 
实现 的 说 明 ， 代 码 在 common/layers.py 中 ， 感 兴趣 的 读者 可 以 参考 。 此 外 ， 
前 作 《 深 度 学 习 入 门 : 基于 Python 的 理论 与 实现 》 的 4.2 节 中 也 详细 介绍 
了 Softmax with Loss 层 。 





1.3.2 ”导数 和 梯度 


神经 网 络 的 学 习 的 目标 是 找到 损失 尽 可 能 小 的 参数 。 此 时 ， 导 数 和 梯度 
非常 重要 。 这 里 我 们 来 简单 说 明 一 下 导数 和 梯度 。 

现在 ， 假 设 有 一 个 函数 y = f(x)。 此 时 , y 关于 z fao Su, xx 
个 型 的 意思 是 变化 程度 ， 具 体 来 说 ， 就 是 z 的 微小 ( 严格 地 讲 ,“ 微 小 ”为 
无 限 小 ) 变化 会 导致 y 发 生 多 大 程度 的 变化 。 

比如 函数 y= z2， 其 导数 可 以 解析 性 地 求 出 ， 即 型 = 2z。 这 个 导数 
结果 表示 x 在 各 处 的 变化 程度 。 实 际 上 ， 如 图 1-14 所 示 ， 它 相当 于 函数 的 
斜率 。 
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1-14 y = x2 的 导数 表示 zx 在 各 处 的 斜率 





在 图 1-14 中 ， 我 们 求 了 关于 x 这 一 个 变量 的 导数 ， 其 实 同样 可 以 求 关 
于 多 个 变量 ( 多 变量 ) WFA O, BRAKA L = f(x), HEP LERE, x 
是 向 量 。 此 时 , 二 关于 zi (m 的 第 i 个 元 素 ) 的 导数 可 以 写成 就 。 另 外 ， 
也 可 以 求 关于 向 量 的 其 他 元 素 的 导数 ， 我 们 将 其 整理 如 下 : 

















1 (2 ðL x) 


bz 8zl1 ”8z2” ”bxzn (1.9) 


像 这 样 ， 将 关于 向 量 各 个 元 素 的 导数 罗列 到 一 起 ， 就 得 到 了 樟 度 (gradient )。 
男 外 ， 和 矩阵 也 可 以 像 向 量 一 样 求 梯度 。 假设 WW 是 一 个 m x n WIERE, 
WKZ L = g(W) 的 梯度 如 下 所 示 : 




















af, OW1i1 OWin 
aw = : F ( 1.1 0) 
OL ðL 
OW m1 OW, 





(D 从 严格 意义 上 讲 ， 对 多 变量 函数 的 某 个 变量 求 得 的 导数 称 为 偏 导数 。 本 书 考虑 到 易 读 性 ， 在 不 影响 
理解 的 情况 下 ,统一 使 用 “导数 ” 一 词 。 译 者 注 
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如 式 (1.10) 所 示 , L RF WW 的 梯度 可 以 写成 矩阵 (准确 地 说 ， 和 矩阵 的 
mem E W a A AR 利用 
“和 矩阵 和 其 梯度 具有 相同 形状 ”这 一 性 质 ， 可 以 轻松 地 进行 参数 的 更 新 和 链 
式 法 则 (后 述 ) 的 实现 。 


严格 地 说 ， 本 书 使 用 的 “梯度 ”一 词 与 数学 中 的 “梯度 ”是 不 同 的 。 
数学 中 的 梯度 仅 限 于 关于 向 量 的 导数 。 而 在 深度 学 习 领 域 ， 一 般 


会 定义 关于 矩阵 和 张 量 的 导数 ， 称 为 “梯度 。 














































































































1.3.3 ” 链 式 法 则 


学 习 阶 段 的 神经 网 络 在 给 定 学 习 数 据 后 会 输出 损失 。 这 里 我 们 想得到 的 
是 损失 关于 各 个 参数 的 梯度 。 只 要 得 到 了 它们 的 梯度 ， 就 可 以 使 用 这 些 梯度 
进行 参数 更 新 。 那 么 ， 神 经 网 络 的 梯度 怎么 求 呢 ?这 就 轮 到 误差 反 向 传播 法 
出 场 了 。 

理解 误差 反 向 传播 法 的 关键 是 链 式 法 则 。 链 式 法则 是 复合 函数 的 求 导 法 
则 ， 其 中 复合 函数 是 由 多 个 函数 构成 的 函数 。 

现在 ， 我 们 来 学 习 链 式 法 则 。 这 里 考虑 y — f(x) M z= gly) AMAR 
数 。 如 z= g(f(z)) 所 示 ， 最 终 的 输出 z 由 两 个 函数 计算 而 来 。 此 时 ，z 关 
于 z 的 导数 可 以 按 下 式 求 得 : 





























o 


aa a11) 

如 式 (1.11) Brzs, z &T c 的 导数 由 y = f(z) 的 导数 和 z= gly) 的 导 

数 之 积 求 得 ， 这 就 是 链 式 法 则 。 链 式 法 则 的 重要 之 处 在 于 ， 无 论 我 们 要 处 理 

的 函数 有 多 复杂 ee 数 )， 都 可 以 根据 它们 各 自 的 导数 来 

求 复合 函数 的 导数 。 也 就 是 说 ， 能 够 计算 各 个 函数 的 局 部 的 导数 ， 就 能 
ee ts 
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可 以 认为 神经 网 络 是 由 多 个 函数 复合 而 成 的 。 误 差 反 向 传播 法 会 充 
分 利用 链 式 法 则 来 求 关于 多 个 函数 (神经 网 络 ) 的 梯度 。 


13.4. HAR 

下 面 ， 我 们 将 研究 误差 反 向 传播 法 。 不 过 在 此 之 前 ， 作 为 准备 工作 ,我 
们 先 来 介绍 一 下 计算 图 的 相关 内 容 。 计 算 图 是 计算 过 程 的 图 形 表示 。 图 1-15 
所 示 为 计算 图 的 一 个 例子 。 








pO MEM 
j| —— 
y/ 











图 1-15 z= z 十 y 的 计算 图 


如 图 1-15 所 示 ， 计 算 图 通过 节点 和 第 头 来 表示 。 这 里 ,“ 二 ”表示 加 法 ， 
变量 z 和 Y 写 在 各 自 的 箭头 上 。 像 这 样 ， 在 计算 图 中 ， 用 节点 表示 计算 ， 人 处 
理 结果 有 序 ( 本 例 中 是 从 左 到 右 ) 流动 。 这 就 是 计算 图 的 正 向 传播 。 

使 用 计算 图 ， 可 以 直观 地 把 握 计算 过 程 。 另 外 ， 这 样 也 可 以 直观 地 求 梯 
度 。 这 里 重要 的 是 ， 梯 度 沿 与 正 向 传播 相反 的 方向 传播 ， 这 个 反方 向 的 传播 
称 为 反 向 传播 。 

这 里 我 想 先 说 明 一 下 反 向 传播 的 全 貌 。 虽 然 我 们 处 理 的 是 z= 二 2 十 y 这 

计算 ， 但 是 在 该 计算 的 前 后 ， 还 存在 其 他 的 “ 某 种 计算 “图 1-16 )。 另 外 ， 
假设 最 终 得 出 的 是 标量 工 (在 神经 网 络 的 学 习 阶 段 ， 计 算 图 的 最 终 输 出 是 损 


失 ， 它 是 一 个 标量 )。 
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1-16 ”加 法 节点 构成 “复杂 计算 ”的 一 部 分 


我 们 的 目标 是 求 L 关于 各 个 变量 的 导数 ( 梯度 )。 这 样 一 来 ， 








计算 图 的 
反 向 传播 就 可 以 绘制 成 图 1-17。 
C bes 
p 
C XM D 
cu x 
ƏL C^ Y, 
EA A CN 之 P s V L 
æ NO 某 种 计算 1» 
十 d 
y ^— 8L Eo MS s ƏL 
Oz ƏL 
("es aL 
C 某 种 计算 六 
— 
hoo 
图 1-17 计算 图 的 反 向 传播 








如 图 1-17 所 示 ， 反 向 传播 用 蓝 色 的 粗 箭头 表示 ， 在 箭头 的 下 方 标注 传 
播 的 值 。 此 时 ， 传 播 的 值 是 指 最 终 的 输出 荆 关 于 各 个 变量 的 导数 。 


例子 中 ， 关 于 z 的 导数 是 L, AT x 和 的 导数 分 别 是 驻 和 六 


和 aye 


在 这 个 
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接着 ， 该 链 式 法 则 出 场 了 。 根 据 刚才 复习 的 链 式 法 则 ， 反 向 传播 中 流动 
的 导数 的 值 是 根据 从 上 游 (输出 侧 ) 传 来 的 导数 和 各 个 运算 节点 的 局 部 导数 
之 积 求 得 的 。 因 此 ， 在 上 面 的 例子 中 ,器 = 5E. sp xa. 

这 里 ， 我 们 来 处 理 z = z 十 y 这 个 基于 加 法 节点 的 运算 。 此 时 ， 分 别 解 
析 性 地 求 得 OE =1， 问 = 1。 因 此 ， 如 图 1-18 所 示 ， 加 法 节点 将 上 游 传 来 
的 值 乘 以 1， 再 将 该 梯度 向 下 游 传播 。 也 就 是 说 ， 只 是 原样 地 将 从 上 游 传 来 
的 梯度 传播 出 去 。 
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图 1-18 加 法 节点 的 正 向 传播 ( 左 图 ) 和 反 向 传播 ( 右 图 ) 





像 这 样 ， 计 算 图 直观 地 表示 了 计算 过 程 。 另 外 ， 通 过 观察 反 向 传播 的 梯 
度 的 流动 ， 可 以 帮助 我 们 理解 反 向 传播 的 推导 过 程 。 

在 构成 计算 图 的 运算 节点 中 ,除了 这 里 见 到 的 加 法 节点 之 外 ， 还 有 很 多 
其 他 的 运算 和 节点。 下面 ， 我 们 将 介绍 儿 个 典型 的 运算 节点 。 























1.3.4.1 乘法 节点 





乘法 节点 是 z= zx xy 这 样 的 计算 。 此 时 ， 导 数 可 以 分 别 求 出 ， 即 
S: —y Wa: =z。 因 此 ， 如 图 1-19 所 示 ， 乘 法 节点 的 反 向 传播 会 将 “上 游 
传 来 的 梯度 ” 乘 以 “将 正 向 传播 时 的 输入 替换 后 的 值 ”。 
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1-19 ”乘法 节点 的 正 向 传播 ( 左 图 ) 和 反 向 传播 ( 右 图 ) 


男 外 ， 在 目前 为 止 的 加 法 节点 和 乘法 节点 的 介绍 中 ， 流 过 节点 的 数据 都 
是 “ 单 变量 ”。 但 是 ,不仅 限于 单 变量 ， 也 可 以 是 多 变量 ( 向量 、 和 矩阵 或 张 
量 )。 当 张 量 流 过 加 法 节点 (或 者 乘法 节点 ) 时 ， 只 需 独 立 计算 张 量 中 的 各 
个 元 素 。 也 就 是 说 ， 在 这 种 情况 下 ， 张 量 的 各 个 元 素 独 立 于 其 他 元 素 进行 对 
应 元 素 的 运算 。 





1.3.4.2 DEPA 


如 图 1-20 所 示 ， 分 支 节 点 是 有 分 支 的 节点 。 

















1-20 分支 节点 的 正 向 传播 ( 左 图 ) 和 反 向 传播 ( 右 图 ) 


严格 来 说 ， 分 支 节 点 并 没有 节点 ， 只 有 两 根 分 开 的 线 。 此 时 ， 相 同 的 值 
被 复制 并 分 又 。 因 此 ， 分 文 节 点 也 称 为 复制 节点 。 如 图 1-20 所 示 ， 它 的 反 
向 传播 是 上 游 传 来 的 梯度 之 和 。 
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1.3.4.3 Repeat 节点 


分 支 节 点 有 两 个 分 文 ， 但 也 可 以 扩展 为 Y 个 分 支 ( 副 本 )， 这 里 称 为 
Repeat 节点 。 现 在 ,我 们 尝试 用 计算 图 绘制 一 个 Repeat. WA (图 1-21 )。 
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1-21 Repeat 节 点 的 正 向 传播 (上 图 ) 和 反 向 传播 (下 





图 ) 


如 图 1-21 所 示 ， 这 个 例子 中 将 长 度 为 D 的 数组 复制 了 NN 份 。 因 为 这 个 
Repeat 节点 可 以 视 为 入 个 分 支 节点 ， 所 以 它 的 反 向 传播 可 以 通过 NN 个 梯度 


的 总 和 求 出 ， 如 下 所 示 。 


>>> import numpy as np 
>>> D, N=8,7 








>>> x = np.random.randn(1, D) # 输入 

>>> y = np.repeat(x, N, axis=0) # 正 向 传播 
>>> dy = np.random.randn(N，D) # 假设 的 梯度 
>>> dx = np.sum(dy, axis-0, keepdims-True) # 反 向 传播 
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这 里 通过 np.repeat() 方法 进行 元 素 的 复制 。 上 面 的 例子 中 将 复制 N 次 
数组 x。 通 过 指定 axis， 可 以 指定 沿 哪个 轴 复 制 。 因 为 反 向 传播 时 要 计算 
总 和 ， 所 以 使 用 NumPy 的 sum() 方法 。 此 时 ， 通 过 指定 axis 来 指定 对 哪 
个 轴 求 和 。 另 外 ， 通 过 指定 keepdims=True， 可 以 维持 二 维 数组 的 维 数 。 在 
上 面 的 例子 中 ， 当 keepdims=True 时 ，np.sum() 的 结果 的 形状 是 (1，D); M 
keepdims-False 上 时， 形状 是 (D,) 。 






































` NumPy 的 广播 会 复制 数组 的 元 素 。 这 可 以 通过 Repeat 节点 来 表示 。 


1.3.4.4 Sum 节点 


Sum 节点 是 通用 的 加 法 节点 。 这 里 考虑 对 一 个 N x DD 的 数组 沿 第 0 个 
轴 求 和 。 此 时 ，Sum 节点 的 正 向 传播 和 反 向 传播 如 图 1-22 所 示 。 
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图 1-22 ”Sum 节点 的 正 向 传播 (上 图 ) 和 反 向 传播 (下 图 ) 
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如 图 1-22 所 示 ，Sum 节点 的 反 向 传播 将 上 游 传 来 的 梯度 分 配 到 所 有 第 











头 上 。 这 是 加 法 节点 的 反 向 传播 的 自然 扩展 。 下 面 ， 和 Repeat 节点 一 样 ， 





我 们 也 来 展示 一 下 Sum 节点 的 实现 示例 ， 如 下 所 示 。 


>>> import numpy as np 

>> D, N=8,7 

>>> x = np.random.randn(N, D) # 输入 
>>> y = np.sum(x, axis-0, keepdims-True) # 正 向 传播 





>>> dy = np.random.randn(1, D) # 假设 的 梯度 
>>> dx = np.repeat(dy，N，axis=0) 3 反 向 传播 











Al EBrzs, Sum 节点 的 正 向 传播 通过 np.sum() 方法 实现 ， 反 向 传播 通 








过 np.repeat() 方法 实现 。 有 趣 的 是 ，Sum 节点 和 Repeat 节点 存在 逆向 关 
系 。 所 谓 逆向 关系 ， 是 指 Sum 节点 的 正 向 传播 相当 于 Repeat 节点 的 反 向 传 











播 ，Sum 节点 的 反 向 传播 相当 于 Repeat 节点 的 正 向 传播 。 





1.3.4.5 MatMul 节点 





本 书 将 矩阵 乘积 称 为 MatMul 42, MatMul 是 Matrix Multiply 的 缩 
写 。 因 为 MatMmul 节点 的 反 向 传播 稍微 有 些 复杂 ， 所 以 这 里 我 们 先进 行 一 般 





性 的 介绍 ， 再 进行 直观 的 解释 。 











为 了 解释 MatMul 节点 ， 我 们 来 考虑 y = zxW 这 个 计算 。 这 里 ，zx、 





W., y 的 形状 分 别 是 1x D, DxH, 1x H CF 1-23). 











(Dx H) (| MatMul 











图 1-23 ”MatMul 节 点 的 正 向 传播 : 矩阵 的 形状 显示 在 各 个 变量 的 上 方 
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此 时 ， 可 以 按 如 下 方式 求 得 关于 z 的 第 i 个 元 素 的 导数 证 








OL Oyj 
"s Oyj Ori (1.12) 











R (1.12) 的 SE 表示 变化 程度 ， 即 当 zx; 发 生 微小 的 变化 时 ， 工 会 有 多 
大 程度 的 变化 。 如 果 此 时 改变 z;， 则 向 量 y 的 所 有 元 素 都 会 发 生变 化 。 另 
外 ， 因 为 y 的 各 个 元 素 会 发 生变 化 ， 所 以 最 终 工 也 会 发 生变 化 。 因 此 ， 从 
zi 到 工 的 链 式 法 则 的 路 径 有 多 个 ， 它 们 的 和 是 RE. 
st (1.12) 仍 可 进一步 简化 。 利 用 S2 = Wig, 将 其 代入 式 (1.12): 


OL Oy; 
m 2 dy; 0s; m y uo 

















由 式 (1.13) 可 知 ， GE 由 向 量 OLOR W 0585 i GEHE ALEGRE. Mox 
个 关系 可 以 导出 下 式 : 





OL OL 
Hz Bu (1.14) 








如 式 (1.14) Bs, Db T HERRER VORI x, WT 的 工 表示 转 
置 矩阵 。 对 式 (1.14) 进行 形状 检查 ， 结 果 如 图 1-24 BER. 














a — 3 wT 
[077 nd Oy 


形状 : 1xD IxH HxD 











图 1-24 和 矩阵 乘积 的 形状 检查 








如 图 1-24 所 示 ， 和 矩阵 形状 的 演变 是 正确 的 。 由 此 ， 可 以 确认 式 (1.14) 
的 计算 是 正确 的 。 然 后 ， 我 们 可 以 反 过 来 利用 它 ( 为 了 保持 形状 合 规 ) 来 推 
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导出 反 向 传播 的 数学 式 〈 及 其 实现 )。 为 了 说 明 这 个 方法 ,我们 再 次 考虑 矩 
阵 乘积 的 计算 y = zxW。 不 过 ， 这 次 考虑 mini-batch 处 理 ， 假 设 z 中 保存 
Y NÆ. ICI, m. W, y 的 形状 分 别 是 Nx D: Dx H-. Nx H, 反 
向 传播 的 计算 图 如 图 1-25 Bron 


























1-25 MatMul 节 点 的 反 向 传播 


那么 ， 下 将 如 何 计算 呢 ? 此 时 ， 和 如 相关 的 变量 (HERE ) 是 上 游 传 来 
的 让 和 Wo 为 什么 说 和 WW 有 关系 呢 ? 考 虑 到 乘法 的 反 向 传播 的 话 ， 就 容 
易 理解 了 。 因 为 乘法 的 反 向 传播 中 使 用 了 “将 正 向 传播 时 的 输入 替换 后 的 
值 "。 同 理 ， 和 矩阵 乘积 的 反问 传播 也 使 用 “将 正 向 传播 时 的 输入 替换 后 的 矩 
阵 ?。 之 后 ， 留 意 各 个 矩阵 的 形状 求 矩 阵 乘积 ， 使 它们 的 形状 保持 合 规 。 如 
此 ， 就 可 以 导出 矩阵 乘积 的 反 疝 传播 ， 如 图 1-26 所 示 。 

如 图 1-26 所 示 ， 通 过 确认 和 矩阵 的 形状 ， 可 以 推导 和 矩阵 乘积 的 反 疝 传 播 
的 数学 式 。 这 样 一 来 ， 我 们 就 推导 出 了 MatMul 节点 的 反 向 传播 。 现 在 我 们 
将 MatMul 节点 实现 为 层 ， 如 下 所 示 (=> common/tayers .py )。 
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ðL — ðL WT 
bm ` Oy 
形状 : NxD NxH | HxD 
OL OL 
LE T SH 
ow | v Oy 
形状 : DxH DxN NxH 








图 1-26 通过 确认 和 矩阵 形状 ， 推 导 反 向 传播 的 数学 式 


class MatMul: 


def 


def 


def 


. init (self, W): 
self.params - [W] 
self.grads = [np.zeros like(W)] 


self.x = None 


forward(self, x): 
W，= self.params 
out = np.dot(x, W) 
self.x = x 


return out 


backward(self, dout): 

W，= self.params 

dx np.dot(dout, W.T) 

dW = np.dot(self.x.T, dout) 
self.grads[0][...] = dW 


return dx 


MatMul 层 在 params 中 保存 要 学 习 的 参数 。 另 外 ， 以 与 其 对 应 的 形式 ， 
将 梯度 保存 在 grads 中 。 在 反 向 传播 时 求 dx 和 dw， 并 在 实例 变量 grads 中 设 
置 权重 的 梯度 。 

另外 ,在 设置 梯度 的 值 时 ， 像 grads[61[.….] = dw 这 村 





FE， 使 用 了 省 略 号 。 
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由 此 ， 可 以 固定 NumPy 数组 的 内 存 地 址 ， 有 覆盖 NumpPy 数组 的 元 素 。 








T 








和 省 略 号 一 样 ， 这 里 也 可 以 进行 基于 grads[6] = dy 的 赋值 。 不 
同 的 是 ， 在 使 用 省 略 号 的 情况 下 会 覆盖 掉 NumPy 数 组 。 这 是 浅 复 
制 (shallow copy) 和 深 复 制 (deep copy) 的 差异 。grads[0] = dw 
的 赋值 相当 于 浅 复制 ,，grads[9][...] = dw 的 覆盖 相当 于 深 












































































































































省 略 号 的 话题 稍微 有 些 复杂 ， 我 们 举 个 例子 来 说 明 。 假 设 有 a F 两 个 
NumPy 数组 。 


>>> a = np.array([1, 2, 3]) 
>>> b = np.array([4, 5, 6]) 





这 里 ,不 管 是 a = bp, 还 是 a[...] = b，a 都 被 赋值 [4,5,6]。 但 是 ， 此 
时 a 指向 的 内 存 地 址 不 同 。 Du Me (简化 版 ) 可 视 化 ， 如 图 1-27 所 示 。 











a[...] =b 











图 1-27 a=b 和 a[...]=b 的 区 别 : 使 用 省 略 号 时 数据 被 覆盖 ， 变 量 指向 的 内 存 地 址 不 变 





如 图 1-27 Br, Æa = b 的 情况 下 ,a 指向 的 内 存 地 址 和 6b 一 样 。 由 于 
实际 的 数据 (4,5,6 ) 没有 被 复制 ， 所 以 这 可 以 说 是 浅 复 制 。 而 在 a[...] = b 
时 ,a 的 内 存 地 址 保持 不 变 ,b 的 元 素 被 复制 到 a 指向 的 内 存 上 。 这 时 ， 
为 实际 的 数据 被 复制 了 ， 所 以 称 为 深 复 币 

由 此 可 知 ， 使 用 省 略 号 可 以 固定 变量 的 内 存 地 址 〈 在 上面 的 例子 中 ，a 
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ENP 











的 地 址 是 固定 的 )。 通 过 固定 这 个 内 存 地 址 ， 实 例 变量 grads 的 处 理会 变 
简单 。 











在 grads 列 表 中 保存 各 个 参数 的 梯度 。 此 时 ，grads 列表 中 的 各 个 
元 素 是 NumPy 数 组 ， 仅 在 生成 层 时 生成 一 次 。 然 后 ， 使 用 省 略 号 ， 
在 不 改变 NumPy 数 组 的 内 存 地 址 的 情况 下 履 盖 数据 。 这 样 一 来 ， 
将 梯度 汇总 在 一 起 的 工作 就 只 需要 在 开始 时 进行 一 次 即 可 。 





































































































以 上 就 是 MatMul 层 的 实现 ， 代 码 在 common/layers.py 中 。 


1.3.5 ”梯度 的 推导 和 反 向 传播 的 实现 


计算 图 的 介绍 结束 了 ， 下 面 我 们 来 实现 一 些 实 用 的 屋 。 这 里 ， 我 们 将 实 
现 Sigmoid 层 、 全 连接 层 Affine 层 和 Softmax with Loss 层 。 








1.3.5.1 Sigmoid 层 


sigmoid PŽ y = 于 BBC 可 KIR, sigmoid 函数 的 导数 由 下 式 表示 。 





Oy 


ab Syla) (115) 


根据 式 (1.15), Sigmoid 层 的 计算 图 可 以 绘制 成 图 1-28。 这 里 ， 将 输出 
侧 的 层 传 来 的 梯度 (2L 3 3 LJ sigmoid 函数 的 导数 ( 3L), 然后 将 这 个 值 传 
递 给 输入 侧 的 层 。 




















1-28 Sigmoid 层 的 计算 图 
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这 里 ， 我 们 省 略 sigmoid 函数 的 偏 导 数 的 推导 过 程 。 相 关内 容 会 在 
附录 A 中 介绍 ， 感 兴趣 的 读者 可 以 参考 一 下 。 


















































接 下 来 ,我们 使 用 Python 来 实现 Sigmoid 层 。 参 考 图 1-28， 可 以 像 下 


p. 


面 这 样 进行 实现 (> common/layers.py )。 








class Sigmoid: 
def | init (self): 
self.params, self.grads = [], [] 
self.out - None 


def forward(self, x): 
out = 1 / (1 + np.exp(-x)) 
self.out = out 
return out 


def backward(self, dout): 
dx = dout * (1.0 - self.out) * self.out 
return dx 


这 里 将 正 向 传播 的 输出 保存 在 实例 变量 out 中 。 然 后 ， 在 反 向 传播 中 ， 
使 用 这 个 out 变量 进行 计算 。 


1.3.5.2 Affinez 


如 前 所 示 ， 我 们 通过 y = np.dot(x, W) + b XIT Affine 层 的 正 向 传播 。 
此 时 ， 在 偏 置 的 加 法 中 ,使 用 了 NumPy 的 广播 功能 。 如 果 明 示 这 一 点 ， 则 
Affine 层 的 计算 图 如 图 1-29 所 示 。 

如 图 1-29 所 示 ， 通 过 MatMul 节点 进行 矩阵 乘积 的 计算 。 偏 置 被 Repeat 
节点 复制 ， 然 后 进行 加 法 运算 ( 可 以 认为 NumPy 的 广播 功能 在 内 部 进行 了 
Repeat 节点 的 计算 )。 下 面 是 Affine 层 的 实现 (=> common/Layers.py )。 
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图 1-29 Affine BATRE 





class Affine: 


def 


def 


def 


. init (self, W, b): 
self.params - [W, b] 


self.grads - [np.zeros like(W), np.zeros like(b)] 


self.x = None 


forward(self, x): 

W, b = self.params 

out = np.dot(x, W) + b 
self.x = x 

return Out 


backward(self, dout): 

W, b = self.params 

dx = np.dot(dout, W.T) 

dw np.dot(self.x.T, dout) 
db = np.sum(dout, axis=0) 


self.grads[0][...] = dw 
self.grads[1][...] db 
return dx 








神经 网 络 的 复习 








根据 本 书 的 代码 规范 ，Affine 层 将 参数 保存 在 实例 变量 params rp, 





将 


梯度 保存 在 实例 变量 grads 中 。 它 的 反 向 传播 可 以 通过 执行 Mat Mul 节点 和 
Repeat 节点 的 反 向 传播 来 实现 。Repeat 节点 的 反 向 传播 可 以 通过 np. sum() 
计算 出 来 ， 此 时 注意 矩阵 的 形状 ， 就 可 以 清楚 地 知道 应 该 对 哪个 轴 (axis ) 









































求 和 。 最 后 ， 将 权重 参数 的 梯度 设置 给 实例 变量 grads。 

的 实现 。 
使 用 已 经 实现 的 MatMul 层 ， 可 以 更 轻松 地 实现 Affine 
出 于 复习 的 目的 ， 没 有 使 用 MatMul 层 ， 而 是 使 






































法 进行 了 实现 。 


1.3.5.3 Softmax with Loss Æ 




















以 上 就 是 Affine 层 





层 。 这 里 


jNumPy 的 方 


我 们 将 Softmax 函数 和 交叉 炉 误 差 一 起 实现 为 Softmax with Loss 层 。 


此 时 ， 计算 图 如 图 1-30 所 示 。 

















(dh 
U1 y à 
yı- tı 
t» 
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| 
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图 1-30 Softmax with Loss 层 的 计算 图 











图 1-30 的 计算 图 将 Softmax 函数 记 为 Softmax JA, MESE SUBE iU 
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E 











Cross Entropy Error 层 。 这 里 假设 要 执行 3 类 别 分 类 的 任务 ， 从 前 一 层 〈 靠 
近 输 入 的 层 ) 接收 3 个 输入 。 

如 图 1-30 所 示 ，Softmax 层 对 输入 a1, a2, as 进行 正规 化 ， 输 出 y, 
Y2, y3o Cross Entropy Error 层 接收 Softmax 的 输出 y1, y2, ya 和 监督 标签 
ti, 刀 , 妇 a， 并 基于 这 些 数据 得 出 损失 Lo 



























































在 图 1-30 中 ， 需 要 注意 的 是 反 向 传播 的 结果 。 从 Softmax 层 传 来 的 
反 向 传播 有 wi — ti, ya 一 t2, ys 一 3 这 样 一 个 很 “漂亮 ”的 结果 。 因 为 









































yı, Y2, Y3 是 Softmax 层 的 输出 ,ti,t2,t3 是 监督 标签 ,所 以 yi 一 妇 ， 


y2 — t2, ya — t3 是 Softmax 层 的 输出 和 监督 标签 的 差分 。 神 经 网 络 
的 反 向 传播 将 这 个 差分 (误差 ) 传 给 前 面 的 层 。 这 是 神经 网 络 的 学 习 
中 的 一 个 重要 性 质 。 










































































这 里 我 们 省 略 对 Softmax with Loss 层 的 实现 的 说 明 ， 有 具体 代码 在 
common/layers.py 中 。 另 外 ，Softmax with Loss 层 的 反 向 传播 的 推导 过 程 在 
前 作 《 深 度 学 习 入 门 : 基于 了 Python 的 理论 与 实现 》 的 附录 A 中 有 详细 说 明 ， 
感 兴趣 的 读者 可 以 参考 一 下 。 








1..6 ”权重 的 更 新 


通过 误差 反 向 传播 法 求 出 梯度 后 ， 就 可 以 使 用 该 梯度 更 新 神经 网 络 的 参 
此 时 ， 神 经 网 络 的 学 习 按 如 下 步骤 进行 。 




















数 


o 


e 步骤 1: mini-batch 
从 训练 数据 中 随机 选 出 多 笔 数据 。 
e 步骤 2: 计算 梯度 
基于 误差 反 向 传播 法 ， 计 算 损失 函数 关于 各 个 权重 参数 的 梯度 。 
。 步骤 3: 更 新 参数 
使 用 梯度 更 新 权重 参数 。 
。 步骤 4: 重复 
根据 需要 重复 多 次 步骤 1、 步 又 2 和 步骤 3。 
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我 们 按照 上 面 的 步骤 进行 神经 网 络 的 学 习 。 首 先 ， 选 择 mini-batch 数 
据 ， 根 据 误差 反 向 传播 法 获得 权重 的 梯度 。 这 个 梯度 指向 当前 的 权重 参数 所 
处 位 置 中 损失 增加 最 多 的 方向 。 因 此 ， 通 过 将 参数 向 该 梯度 的 反方 向 更 新 ， 
idi iid 这 就 是 梯度 下 降 法 〈gradient descent )。 之 后 ， 根 据 需 要 将 

一 操作 重复 多 次 即 可 。 

我 们 在 上 面 的 步骤 3 中 更 新 权重 。 权 重 更 新 方法 有 很 多 ， 这 里 我 们 来 
实现 其 中 最 简单 的 随机 梯度 下 降 法 (Stochastic Gradient Descent, SGD )。 
中 ,，“ 随 机 ”是 指使 用 随机 选择 的 数据 (mini-batch ) 的 梯度 。 

SGD 是 一 个 很 简单 的 方法 。 它 将 ( 当前 的 ) 权重 朝 梯 度 的 Ce) 方向 
更 新 一 定 距 离 。 如 果 用 数学 式 表 示 ， 则 有 : 









































并 将 




















We We (1.16) 


这 里 将 要 更 新 的 权重 参数 记 为 W， 损 失 函 数 关于 W 的 梯度 记 为 es nd 
示 学 习 率 ， 实 际 上 使 用 0.01、0.001 等 预先 定好 的 值 。 

现在 ， 我 们 来 进行 SGD 的 实现 。 这 里 考虑 到 模块 化 ， 将 进行 参数 更 
新 的 类 实现 在 common/optimizer.py 中 。 除 了 SGD 之 外 ， 这 个 文件 中 还 有 
AdaGrad 和 Adam 等 的 实现 。 

进行 参数 更 新 的 类 的 实现 拥有 通用 方法 update(params，grads)。 这 里 ， 
在 参数 params 和 grads 中 分 别 以 列表 形式 保存 了 神经 网 络 的 权重 和 梯度 。 此 
外 ,假定 params 和 grads 在 相同 索引 处 分 别 保存 了 对 应 的 参数 和 梯度 。 这 样 
一 来 ，SGD 就 可 以 像 下 面 这 样 实现 (= comnon/optimizer.py )。 




















class SGD: 
def | init (self, lr-0.01) 
self.lr = lr 


def update(self, params, grads): 
for i in range(len(params)): 
params[i] -= self.lr * grads[i] 
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-> 








初始 化 参数 tr 表示 学 习 率 (learning rate )。 这 里 将 学 习 率 保存 为 实例 
变量 。 然后， 在 update(params, grads) 方法 中 实现 参数 的 更 新 处 理 。 
使 用 这 个 Scb 类 ， 神 经 网 络 的 参数 更 新 可 按 如 下 方式 进行 CF 
是 不 能 实际 运行 的 伪 代 码 )。 











model = TwoLayerNet(...) 
optimizer = SGD() 


for i in range(10000): 


x batch, t batch = get mini batch(...) # 获取 mini-batch 
loss = model.forward(x batch, t batch) 
model.backward() 


optimizer.update(model.params, model.grads) 


像 这 样 ， 通 过 独立 实现 进行 最 优化 的 类 ， 系 统 的 模块 化 会 变 得 更 加 容易 。 除 

了 SGD 外 ， 本 书 a AdaGrad 和 Adam 等 方法 ， 它 们 的 实现 都 在 

common/optimizer.py 中 。 这 里 省 略 对 这 些 最 优化 方法 的 介绍 ， 详 细 内 容 请 参 
考 前 作 《 深 度 学 习 入 门 : 基于 Python 的 理论 与 实现 》 的 6.1 节 。 








1.4 使 用 神经 网 络 解决 问题 


到 这 里 为 止 ， 我 们 的 准备 工作 就 做 好 了 。 现 在 ， 我 们 对 一 个 简单 的 数据 
集 进行 神经 网 络 的 学 习 。 








1.4.1 ”螺旋 状 数据 集 


本 书 在 dataset 目录 中 提供 了 几 个 便于 处 理 数 据 集 的 类 ， 本 节 将 使 用 其 
中 的 dataset/spiral.py 文件 。 这 个 文件 中 实现 了 读 取 螺旋 ( 旋涡 ) 状 数据 
的 类 ， 其 用 法 如 下 所 示 (= ch0l/show_ spiral dataset.py )。 















































import sys 
sys.path.append('..') # 为 了 引入 父 目录 的 文件 而 进行 的 设 定 
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from dataset import spiral 
import matplotlib.pyplot as plt 


x, t = spiral.load data() 
print('x', x.shape) # (300, 2) 
print('t', t.shape) # (300, 3) 





在 上 面 的 例子 中 ， 要 从 cho1 目录 的 dataset 目录 引入 spiral.py。 因 此 ， 
上 面 的 代码 通过 sys.path.append('.. ) 将 父 目 录 添 加 到 了 import 的 检索 路 























径 中 。 


然后 ， 使 用 spiral.load data() 进行 数据 的 读 入 。 此 时 ，x 是 输入 数据 ， 


t 是 监督 标签 。 
,tt 是 三 维 数据 。 另外，t 是 one-hot 向 量 ， 对 应 的 正确 解 标签 
的 类 标记 为 1， 其 余 的 标记 为 0。 下面 ， 我 们 把 这 些 数据 绘制 在 图 上 ， 结 果 


x 是 二 维 数据 


观察 x 和 上 t 的 形状 ， 可 知 它们 各 自 有 300 笔 样本 数据 ， 其 中 
































如 图 1-31 所 示 。 
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1-31 学 习 用 的 螺旋 状 数据 集 ( 用 x A @ 分 别 表示 3 个 类 ) 
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如 图 1-31 所 示 ， 输 入 是 二 维 数据 ， 类 别 数 是 3。 观 察 这 个 数据 集 可 知 ， 
能 被 直线 分 割 。 因 此 ， 我 们 需要 学 习 非 线性 的 分 割 线 。 那 么 ， 我 们 的 神 
pons 具有 使 用 非 线性 的 sigmoid 激活 函数 的 隐藏 层 的 神经 网 络 ) 能 否 正 
确 学 习 这 种 非 线性 模式 呢 ? 让 我 们 实验 一 下 。 













































































寻 为 这 个 实验 相对 简单 ， 所 以 我 们 不 把 数据 集 分 成 训练 数据 、 验 
证 数据 和 测试 数据 。 不 过 ， 实 际 任务 中 会 将 数据 集 分 为 训练 数据 
和 测试 数据 (以 及 验证 数据 ) 来 进行 学 习 和 评估 。 




































































1.4.2 ”神经 网 络 的 实现 


现在 ,我 们 来 实现 一 个 具有 一 个 隐藏 层 的 神经 网 络 。 首 先 ，import 语句 
和 初始 化 程序 的 _init__() 如 下 所 示 (= ch0l/two_layer_net.py )。 





import sys 

sys.path.append('..') 

import numpy as np 

from common.layers import Affine, Sigmoid, SoftmaxWithLoss 


class TwoLayerNet: 
def | init (self, input size, hidden size, output size): 
I, H, O = input size, hidden size, output size 


# 初始 化 权重 和 偏 置 
W1 = 0.01 * np.random.randn(I, H) 
bl = np.zeros(H) 
W2 = 0.01 * np.random.randn(H, 0) 
b2 = np.zeros(0) 





3 生成 层 

self.layers = [ 
Affine(Wl, b1), 
Sigmoid(), 
Affine(W2, b2) 





] 
self.loss layer = SoftmaxWithLoss() 
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# 将 所 有 的 权重 和 梯度 整理 到 列表 中 

self.params, self.grads = [], [] 

for layer in self.layers: 
self.params += layer.params 
self.grads += layer.grads 


初始 化 程序 接收 3 个 参数 。input_size 是 输入 层 的 神经 元 数 ，hidden_ 
size 是 隐藏 层 的 神经 元 数 ，output_size 是 输出 层 的 神经 元 数 。 在 内 部 实 
现 中 ， 首 和 用 零 向 量 (np.zeros() ) 初始 化 偏 置 ， 再 用 小 的 随机 数 (0.01 * 
np.random.randn() ) 初始 化 权重 。 通 过 将 权重 设 成 小 的 随机 数 ， 学 习 可 以 更 
容易 地 进行 。 接 着 ， 生 成 必要 的 层 ， 并 将 它们 整理 到 实例 变量 Layers 列表 
中 。 最 后 ， 将 这 个 模型 使 用 到 的 参数 和 梯度 归纳 在 一 起 。 







































































AX Softmax with Loss 层 和 其 他 层 的 处 理 方式 不 同 ， 所 以 不 将 
它 放 入 layers 列 表 中 ， 而 是 单独 存储 在 实例 变量 loss_layer 中 。 


















































接着 ， 我 们 为 TwoLayerNet 实现 3 个 方法 ， 即 进行 推理 的 predict() 77 
法 、 正 向 传播 的 forward() 方法 和 反 向 传播 的 backward() 方法 (= chgl/two_ 


layer net.py )。 





def predict(self, x): 
for layer in self.layers: 
x = layer.forward(x) 
return x 


def forward(self, x, t): 
score = self.predict(x) 
loss = self.loss layer.forward(score, t) 
return loss 


def backward(self, doutz1): 
dout = self.loss layer.backward(dout) 
for layer in reversed(self.layers): 
dout = layer.backward(dout) 
return dout 




















1.4 使 
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>. 








如 上 所 示 ， 这 个 实现 非常 清楚 。 
模块 实现 为 了 层 ， 所 以 这 里 只 需要 以 合理 的 顺序 调 


法 和 backward() 方法 即 可 。 


1.4.3 ”学 习 用 的 代码 





uH 


因为 我 们 已 经 将 神经 网 络 中 要 用 的 处 理 
这 些 层 的 forward() 方 

















下 面 ， 我 们 来 看 一 下 学 习 用 的 代码 。 首 先 ， 读 入 学 习 数 据 ， 生 成 神经 网 
络 (模型 ) 和 优化 带 。 人 然后， 按照 之 前 介绍 的 学 习 的 4 个 步 又 进行 学 习 。 男 











外 ， 在 机 器 学 习 领 域 ， 通 常 将 针对 























具体 问题 设计 的 方法 (神经 网 络 、SVM 


等 ) 称 为 模型 。 学 习 用 的 代码 如 下 所 示 (会 ch9l/train custom Loop.py )。 


import sys 
sys.path.append('..') 
import numpy as np 


from common.optimizer import SGD 


from dataset import spiral 
import matplotlib.pyplot as plt 


from two layer net import TwoLayerNet 


# 人 @ 设 定 超 参数 

max_epoch = 300 
batch size = 30 
hidden size = 10 


learning rate = 1.0 


# @ 读 人 数据 ， 生 成 模型 和 优化 器 
X, t = spiral.load data() 





model = TwoLayerNet(input size-2, hidden size-hidden size, output size-3) 


optimizer = SGD(lr-learning rate) 











# 学 习 用 的 变量 


data size = len(x) 








max iters - data size // batch size 


total loss - 0 
loss count = 0 
loss list = [] 
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for epoch in range(max epoch): 


# 图 打 乱 数据 

idx = np.random.permutation(data size) 
X 
t 


x[idx] 
t[idx] 


for iters in range(max iters): 
batch x = x[iters*batch size:(iters*1)*batch size] 
batch t = t[iters*batch size:(iters*1)*batch size] 





# 图 计算 梯度 ， 更 新 参数 

loss = model.forward(batch x, batch t) 
model.backward() 
optimizer.update(model.params, model.grads) 


total loss += loss 
loss count += 1 


# 全 定期 输出 学 习 过 程 
if (iters+1) % 10 == 0: 
avg loss = total loss / loss count 
print('| epoch %d | iter 5d / *d | loss %.2f' 
% (epoch + 1, iters + 1, max iters, avg loss)) 
loss list.append(avg loss) 
total loss, loss count - 0, 0 





首先 ， 在 代码 @ 的 地 方 设 定 超 参数 。 具 体 而 言 ， 就 是 设 定 学 习 的 epoch 


数 、mini-batch 的 大 小 、 隐 藏 层 的 神经 元 数 和 学 习 率 。 接 着 ， 在 代码 @@ 的 地 
方 进行 数据 的 读 入 ， 生 成 神经 网 络 〈 模型 ) 和 优化 器 。 我 们 已 经 将 2 层 神经 
网 络 实现 为 了 TwoLayerNet 类 ， 将 优化 器 实现 为 了 sGD 类 ， 这 里 直接 使 用 它 
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epoch 表示 学 习 的 单位 。1 个 epoch 相 当 于 模型 “看 过 ” 一遍 所 有 的 
学 习 数 据 ( 人 遍历 数据 集 )。 这 里 我 们 进行 300 个 epoch 的 学 习 。 





















































进行 学 习 时 ， 需 要 随机 选择 数据 作为 mini-batch。 这 里 ,我 们 以 
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1.4 使 


-> 














epoch 为 单位 打 乱 数据 ， 对 于 打 乱 后 的 数据 ， 按 顺序 从 头 开始 抽取 数据 。 数 
据 的 打 乱 〈 准确 地 说 ， 是 数据 索引 的 打 乱 ) 使 用 np. random. permutation() 77 
法 。 给 定 参 数 W， 该 方法 可 以 返回 0 到 N- 1 的 随机 序列 ， 其 实际 的 使 用 
示例 如 下 所 示 。 











>>> import numpy as np 
>>> np.random.permutation(10) 
array([7, 6, 8, 3, 5, 0, 4, 1, 9, 2]) 


>>> np.random.permutation(10) 
array([1, 5, 7, 3, 9, 2, 8, 6, 0, 4]) 


像 这 样 ， 调 用 np. random.permutation() 可 以 随机 打 乱 数据 的 索引 。 

接着 ， 在 代码 @ 的 地 方 计算 梯度 ， 更 新 参数 。 最 后 ， 在 代码 @ 的 地 方 定 
期 地 输出 学 习 结 果 。 这 里 ， 每 10 次 迭代 计算 1 次 平均 损失 ， 并 将 其 添加 到 
变量 loss list 中 。 以 上 就 是 学 习 用 的 代码 。 


这 里 实现 的 神经 网 络 的 学 习 用 的 代码 在 本 书 其 他 地 方 也 可 以 使 用 。 
因此 ， 本 书 将 这 部 分 代码 作为 Trainer 类 提供 出 来 。 使 用 Trainer 
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26, PIS 78 R952 2) 28 H5 BN Trainer. 详细 的 用 法 将 
在 1.4.4 节 说 明 。 












































运行 一 下 上 面 的 代码 ( ch01/train_custom toop.py ) 就 会 发 现 ， 向 终端 
输出 的 损失 的 值 在 平稳 下 降 。 我 们 将 结果 画 出 来 ， 如 图 1-32 所 示 。 
由 图 1-32 可 知 ， 随 着 学 习 的 进行 ， 损 失 在 减 小 。 我 们 的 神经 网 络 正在 
朝 着 正确 的 方向 学 习 ! 接 下 来 我们 将 学 习 后 的 神经 网 络 的 区 域 划 分 ( 也 称 
为 决策 边界 ) 可 视 化 ， 结 果 如 图 1-33 所 示 。 
由 图 1-33 可 知 ， 学 习 后 的 神经 网 络 可 以 正确 地 捕获 “旋涡 ”这 个 模式 。 
也 就 说 ， 模 型 正确 地 学 习 了 非 线 性 的 区 域 划分 。 像 这 样 ， 神 经 网 络 通 过 隐藏 
层 可 以 实现 复杂 的 表现 力 。 深 度 学 习 的 特征 之 一 就 是 秋 加 的 层 越 多 ， 表 现 力 
越 丰 富 。 
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图 1-32 ”损失 的 图 形 : 横 轴 是 学 习 的 迭代 次 数 (刻度 值 的 10 售 )， 坚 轴 是 每 10 次 迭代 的 平 
均 损 失 

















图 1-33 学习 后 的 神经 网 络 的 决策 边界 (用 不 同 颜色 描绘 神经 网 络 识别 的 各 个 类 别 的 区 域 ) 
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1.44 Trainer% 

如 前 所 述 ， 本 书 中 有 很 多 机 会 执行 神经 网 络 的 学 习 。 为 此 ， 就 需要 编写 
前 面 那样 的 学 习 用 的 代码 。 然 而 ， 每 次 都 写 相 同 的 代码 太 无 获 了 ， 因 此 我 们 
将 进行 学 习 的 类 作为 Trainer 类 提供 出 来 。Trainer 类 的 内 部 实现 和 刚才 的 源 
代码 几乎 相同 ， 只 是 添加 了 一 些 新 的 功能 而 已 ， 我 们 在 需要 的 时 候 再 详细 说 
明 其 用 法 。 

Trainer 类 的 代码 在 common/trainer.py 中 。 这 个 类 的 初始 化 程序 接收 神 
经 网 络 ( 模型 ) 和 优化 器 ， 具 体 如 下 所 示 。 











model = TwoLayerNet(...) 
optimizer = SGD(lr-1.0) 
trainer - Trainer(model, optimizer) 


然后 ， 调 用 fitO 方法 开始 学 习 。fit() 方法 的 参数 如 表 1-1 所 示 。 


表 1-1 Trainer 类 的 fit() 方 法 的 参数 。 表 中 的 " (=XX) " 表示 参数 的 默认 值 


x 输入 数据 

[: 监督 标签 

max epoch (= 10) 进行 学 习 的 epoch 数 
batch size (= 32) mini-batch 的 大 小 


eval interval (= 20) 输出 结果 (平均 损失 等 ) 的 间隔 。 

例如 设置 eval_interval=20， 则 每 20 次 迭代 计算 1 次 平均 
损失 ， 并 将 结果 输出 到 界面 上 

max grad (= None ) 梯度 的 最 大 范 数 。 

当 梯 度 的 范 数 超过 这 个 值 时 ， 缩 小 梯度 〈 梯度 裁剪 ， 具体 请 
参考 第 5 章 ) 

















另外 ，Trainer 类 有 plot) 方法 ， 它 将 fit() 方法 记录 的 损失 (准确 地 
说 ， 是 按照 eval interval 评价 的 平均 损失 ) 在 图 上 画 出 来 。 使 用 Trainer 类 
进行 学 习 的 代码 如 下 所 示 (ch91/train.py )。 





50 ”| 第 1 章 神经 网 络 的 复习 











import sys 

sys.path.append('..') 

from common.optimizer import SGD 

from common.trainer import Trainer 
from dataset import spiral 

from two layer net import TwoLayerNet 


max epoch - 300 
batch size - 30 
hidden size - 10 


learning rate - 1.0 


x, t = spiral.load data() 
model = TwoLayerNet(input size-2, hidden size-hidden size, output size-3) 


optimizer = SGD(lr-learning rate) 


trainer - Trainer(model, optimizer) 
trainer.fit(x, t, max epoch, batch size, eval interval-10) 


trainer.plot() 
执行 这 段 代码 ， 会 进行 和 之 前 一 样 的 神经 网 络 的 学 习 。 通 过 将 之 前 展 
示 的 学 习 用 的 代码 交 给 Trainer 类 负责 ， 代 码 变 简洁 了 。 本 书 今后 都 将 使 用 


Trainer 类 进行 学 习 。 








1.5 计算 的 高 速 化 





神经 网 络 的 学 习 和 推理 需要 大 量 的 计算 。 因 此 ， 如 何 高 速 地 计算 神经 网 
络 是 一 个 重要 课题 。 本 节 将 简单 介绍 一 下 可 以 有 效 加 速 神经 网 络 的 计算 的 位 
精度 和 GPU 的 相关 内 容 。 



























































相 比 计算 的 高 速 化 ， 本 书 更 加 重视 实现 的 易 理解 性 。 但是， 从 计算 
的 高 速 化 的 角度 出 发 ， 之 后 进行 的 实现 将 考虑 数据 的 位 精度 。 另 外 ， 
在 需要 花费 大 量 时 间 进 行 计 算 的 地 方 ， 会 将 代码 设计 为 可 在 GPU 
上 执行 。 
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1534 ”位 精度 

NumPy 的 浮 点 数 上 默认 使 用 64 位 的 数据 类 型 。 不 过 ， 是 否 为 64 位 还 依 
赖 于 有 具体 的 环境 ， 包 括 操作 系统 、Python 和 NumPy 的 版 本 等 。 我 们 可 以 
使 用 下 面 的 代码 来 验证 是 否 使 用 了 64 位 浮 点 数 。 


























>>> import numpy as np 
>>> a = np.random.randn(3) 
>>> a.dtype 
dtype('float64') 




















通过 NumPy 数组 的 实例 变量 dtype， 可 以 查看 数据 类 型 。 上 面 的 结果 
是 float64， 表 示 64 位 的 浮 点 数 。 

NumPy 中 默认 使 用 64 位 浮 点 数 。 但 是 ,我们 已 经 知道 使 用 32 位 浮 点 
数 也 可 以 无 损 地 (识别 精度 几乎 不 下 降 ) 进行 神经 网 络 的 推理 和 学 习 。 从 
内 存 的 角度 来 看 ， 因 为 32 位 只 有 64 位 的 一 半 ， 所 以 通常 首选 32 位 。 另 
外 ,在 神经 网 络 的 计算 中 ， 数 据 传输 的 总 线 带宽 有 时 会 成 为 瓶颈 。 在 这 种 
情况 下 ， 训 无 疑问 数据 类 型 也 是 越 小 越 好 。 再 者 ， 就 计算 速度 而 言 ，32 位 
浮 点 数 也 能 更 高 速 地 进行 计算 ( 浮 点 数 的 计算 速度 依赖 于 CPU 或 GPU 的 
架构 )。 

因此 ， 本 书 优先 使 用 32 位 浮 点 数 。 要 在 NumPy 中 使 用 32 位 浮 点 数 ， 
可 以 像 下 面 这 样 将 数据 类 型 指定 为 np.fLoat32 或 者 'f'。 





















































>>> b = np.random.randn(3).astype(np.float32) 
>>> b.dtype 
dtype('float32') 


>>> € = np.random.randn(3).astype('f') 
>>> c.dtype 
dtype('float32') 

















另外 ,我 们 已 经 知道 ， 如 果 只 是 神经 网 络 的 推理 ， 则 即使 使 用 16 hri 
点 数 进行 计算 ， 精 度 也 基本 上 不 会 下 降 回 。 不 过 ， 虽 然 NumPy 中 准备 有 
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16 位 浮 点 数 ， 但 是 普通 CPU 或 GPU 中 的 运算 是 用 32 位 执行 的 。 因 此 ， 
即便 变换 为 16 位 浮 点 数 ， 因 为 计算 本 身 还 是 用 32 位 浮 点 数 执行 的 ， 所 以 处 
理 速度 方面 并 不 能 获得 什么 好 处 。 

但 是 ， 如 果 是 要 ( 在 外 部 文件 中 ) 保存 学 习 好 的 权重 ， 则 16 位 浮 点 数 
是 有 用 的 。 具 体 地 说 ， 将 权重 数据 用 16 位 精度 保存 时 ， 只 需要 32 位 时 的 一 
半 容 量 。 因 此 ， 本 书 仅 在 保存 学 习 好 的 权重 时 ， 将 其 变换 为 16 位 浮 点 数 。 



















































































随 着 深度 学 习 备 受 瞩 目 ， 最 近 的 GPU 已 经 开始 支持 16 位 半 精 度 浮 
点 数 的 存储 与 计算 。 另 外 ， 谷 歌 公司 设计 了 一 款 名 为 TPU 的 专用 芯 
片 ， 可 以 支持 8 位 计算 。 






































1.5.2 GPU(CuPy) 

深度 学 习 的 计算 由 大 量 的 乘法 累加 运算 组 成 。 这 些 乘法 累加 运算 的 绝 大 
部 分 可 以 并 行 计算 ， 这 是 GPU Lb CPU 擅长 的 地 方 。 因 此 ， 一般 的 深度 学 
习 框 架 都 被 设计 为 既 可 以 在 CPU 上 运行 ,也 可 以 在 GPU 上 运行 。 

本 书 中 可 以 选用 Python JÆ CuPy 8j; CuPy 是 基于 GPU 进行 并 行 计 
算 的 库 。 要 使 用 CuPy， 需 要 使 用 安装 有 NVIDIA 的 GPU 的 机 器 ， 并 且 需 
要 安装 CUDA 这 个 面向 GPU 的 通用 并 行 计 算 平 台 。 详 细 的 安装 方法 请 参 
考 CuPy 的 官方 安装 文档 向 。 

使 用 Cupy， 可 以 轻松 地 使 用 NVIDIA 的 GPU 进行 并 行 计算 。 更 重要 
的 是 ，CuPy 和 NumPy 拥有 共同 的 API。 下 面 我 们 来 看 一 个 简单 的 使 用 
示例 。 





















































>>> import cupy as cp 
>>> X = cp.arange(6).reshape(2, 3).astype('f') 
=>> X 
array([[ 0., 1., 2.], 
[ 3., 4., 5.]], dtype-float32) 
>>> x.sum(axis-1) 
array([ 3., 12.], dtype=float32) 
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如 上 所 示 ，CuPy 的 使 用 方法 与 NumPy 基本 相同 。 男 外 ， 它 的 内 部 使 
用 GPU 进行 计算 。 这 意味 着 使 用 NumPy 写 的 代码 可 以 轻松 地 改 成 “GPU 
版 "， 因 为 我 们 要 做 的 〈 基 本 上 ) 只 是 把 numpy 替换 为 cupy 而 已 。 








截至 2018 年 6 月 ，CuPy 并 没有 完全 覆盖 NumPy 的 方法 。 虽然 
CuPy 和 NumPy 并 不 完全 兼容 ， 但 是 它们 有 许多 共同 的 API。 










































































重申 一 下 ， 本 书 为 了 使 代码 实现 易于 理解 ， 基 本 上 都 基于 CPU 进行 实现 。 
对 于 计算 上 要 耗费 大 量 时 间 的 代码 ， 则 提供 使 用 了 CuPy 的 实现 (nf). 不 
过 ， 即 便 在 使 用 CuPy 的 情况 下 ， 也 会 尽量 做 到 不 让 读者 感到 是 在 使 用 CuPy。 

本 书 中 可 以 在 GPU 上 运行 的 代码 最 先 出 现在 第 4 章 ( che4/train.py )。 
这 个 che4/train.py 从 以 下 的 import 语句 开始 。 














import sys 

sys.path.append('..') 

import numpy as np 

from common import config 

* 在 用 GPU 运行 时 ， 请 打开 下 面 的 注释 (需要 cupy) 



































JH CPU 执行 上 述 代码 需要 花费 几 个 小 时 ， 但 是 如 果 使 用 GPU， 则 只 
需要 几 十 分 钟 。 并 且 ， 只 要 修改 上 述 源 代码 中 的 一 行 ， 本 书 提供 的 代码 就 可 
以 在 GPU 模式 下 运行 。 具体 而 言 ， 只 需 打 开 注 释 # config.GPU = True, Jf 
用 CuPy RÆ NumPy 即 可 。 如 此 ， 代 码 就 可 以 在 GPU 上 运行 ， 并 高 速 地 
进行 学 习 。 请 有 GPU 的 读者 多 多 尝试 一 下 。 











将 NumPy 切 换 为 CuPy 的 机 制 非常 简单 ， 感 兴趣 的 读者 请 参考 
common/config.py. common/np.py 和 common/layers.py 的 import 


语句 。 
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1.6 小结 








本 章 我 们 复习 了 神经 网 络 的 基础 。 首 先 回顾 了 向 量 和 和 矩 阵 等 数学 知识 ， 
确认 了 Python ( 特别 是 NumPy ) 的 基本 用 法 。 然 后 ， 我 们 观察 了 神经 网 
络 的 结构 。 另 外 ， 我 们 还 讨论 了 几 个 计算 图 的 基本 部 件 ( 加 法 节点 、 乘 法 节 
点 等 )， 并 介绍 了 它们 的 正 向 传播 和 反 向 传播 。 

接着 ， 我 们 进行 了 神经 网 络 的 实现 。 考 虑 到 模块 化 ,我们 将 神经 网 络 的 
基本 部 件 实现 为 了 层 。 在 层 的 实现 中 ， 我 们 制定 了 本 书 的 代码 规范 ， 即 具有 
类 方法 forward() 和 backward() ， 以 及 实例 变量 params 和 grads。 这 使 得 神经 
网 络 的 实现 更 加 清晰 。 

最 后 ， 我 们 对 人 造 的 螺旋 状 数据 集 使 用 具有 一 个 隐藏 层 的 神经 网 络 进 
行 了 学 习 ， 并 确认 了 模型 学 习 的 正确 性 。 到 这 里 为 止 ， 神 经 网 络 的 复习 就 结 
束 了 。 现 在 ， 让 我 们 手 握 神经 网 络 这 一 可 靠 的 武器 ， 迈 入 自然 语言 处 理 的 世 
界 。 出 发 吧 ! 

































































邮 





第 2 章 
自然 语言 和 单词 的 分 布 式 表示 


Marty: “This is heavy (棘手 ).” 
Dr. Brown: “In the future, things are so heavy ( £ )?" 
一 一 电影 《 回 到 未 来 》 


接 下 来 ,我们 将 踏 入 自然 语言 处 理 的 世界 。 自 然 语 言 处 理 涉及 多 个 子 
领域 ， 但 是 它们 的 根本 任务 都 是 让 计算 机 理解 我 们 的 语言 。 何 谓 让 计算 机 理 
解 我 们 的 语言 ”存在 哪些 方法 ” 本章 我 们 将 以 这 些 问 题 为 中 心 展开 讨论 。 为 
此 ， 我 们 将 先 详 细 考察 古典 方法 ， 即 深度 学 习 出 现 以 前 的 方法 。 从 下 一 章 开 
始 ， 再 介绍 基于 深度 学 习 ( 确切 地 说 ， 是 神经 网 络 ) 的 方法 。 

本 章 我 们 还 会 练习 使 用 Python 处 理 文本 ， 实 现 分 词 〈 将 文本 分 割 成 单 
词 ) 和 单词 ID 化 (将 单词 转换 为 单词 ID ) 等 任务 。 本 章 实现 的 函数 在 后 
面 的 章节 中 也 会 用 到 。 因 此 ， 本 章 也 可 以 说 是 后 续 文 本 处 理 的 准备 工作 。 那 
么 ， 让 我 们 一 起 进入 自然 语言 处 理 的 世界 吧 ! 


















































21 什么 是 自然 语言 处 理 





我 们 平常 使 用 的 语言 ， 如 日 语 或 英语 ， 称 为 自然 语言 (natural language )。 
所 谓 自 然 语言 处 理 (Natural Language Processing, NLP )， 顾 名 思 义 ， 就 
是 处 理 自然 语言 的 科学 。 简 单 地 说 ， 它 是 一 种 能 够 让 计算 机 理解 人 类 语言 的 
技术 。 换 言 之 ， 自 然 语 言 处 理 的 目标 就 是 让 计算 机 理解 人 说 的 话 ， 进 而 完成 
对 我 们 有 帮助 的 事情 。 
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另外 ， 说 到 计算 机 可 以 理解 的 语言 ， 我 们 可 能 会 想到 编程 语言 或 者 标记 
语言 等 。 这 些 语 言 的 语法 定义 可 以 唯一 性 地 解释 代码 含义 ， 计 算 机 也 能 根据 
确定 的 规则 分 析 代 码 。 

众所周知 ， 编 程 语 言 是 一 种 机 械 的 、 缺 乏 活力 的 语言 。 换 名 话说 ， 它 是 
一 种 “ 硬 语言 "。 而 英语 或 日 语 等 自然 语言 是 “ 软 语言 "。 这 里 的 “ 软 ” 是 指 
意思 和 形式 会 灵活 变化 ， 比 如 会 义 相同 的 文章 可 以 有 不 同 的 表述 ， 或 者 文章 
存在 歧义 ， 等 等 。 另 外 ， 自 然 语言 的 “ 软 ” 还 体现 在 ， 新 的 词语 或 新 的 含义 
会 随 着 时 代 的 发 展 不 断 出 现 。 

自然 语言 是 活着 的 语言 ， 具 有 “和 柔软 性 ”。 因 此 ， 要 让 “头脑 僵硬 ”的 
计算 机 去 理解 自然 语言 ， 使 用 常规 方法 是 无 法 办 到 的 。 但 是 ， 如 果 我 们 能 办 
到 ， 就 能 让 计算 机 去 完成 一 些 对 人 们 有 用 的 事情 。 事 实 上 ， 我们 可 以 看 到 很 
多 这 样 的 应 用 。 搜 索引 擎 和 机 器 翻译 就 是 两 个 比较 好 理解 的 例子 ， 除 此 之 
外 ， 还 有 问答 系统 、 假 名 汉字 转化 (IMBE )、 自 动 文 本 摘要 和 情感 分 析 等 ， 
在 我 们 身边 已 经 使 用 了 很 多 自然 语言 处 理 技术 。 


问答 系统 是 自然 语言 处 理 技术 的 一 个 应 用 。 作 为 代表 ， 国 际 商 业 机 
W 器 公司 (IBM ) 的 Watson 系统 非常 有 名 。2011 年 ， 美 国 的 一 档 答题 

[35 B (f 24x ) (Jeopardy! ) iE Watson BEAR. fx 
AF, Watson 的 答题 比 任何 人 都 准确 ， 战 胜 了 往届 的 冠军 (不 过 ， 
给 Watson 的 问题 是 用 文本 给 出 的 )。 这 一 “事件 ” 引起 了 世人 的 广 
泛 关注 ， 大 概 也 是 从 这 个 时 候 开 始 ， 人 们 对 人 工 智 能 的 期 待 和 不 安 
都 开始 增加 。 此 外 ，IBM 将 Watson 称 为 决策 支援 系统 。 最 近 ， 
媒体 报道 ，Watson 利 用 过 往 的 大 量 医疗 数据 ， 针 对 疑难 症 提 供 了 
正确 的 治疗 建议 ,挽救 了 患者 生命 。 









































































































































































































































































































































































































































单词 含义 

我 们 的 语言 是 由 文字 构成 的 ， 而 语言 的 含义 是 由 单词 构成 的 。 换 句 话 
说 ， 单 词 是 含义 的 最 小 单位 。 因 此 ， 为 了 让 计算 机 理解 自然 语言 ， 让 它 理解 
单词 含义 可 以 说 是 最 重要 的 事情 了 。 
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本 章 的 主题 是 让 计算 机 理解 单词 含义 。 确 切 地 说 ， 我 们 将 探讨 一 些 巧 
妙 地 蕴含 了 单词 含义 的 表示 方法 。 具 体 来 说 ， 本 音 和 下 一 章 将 讨论 以 下 3 种 
方法 。 





。 基于 同义词 词典 的 方法 
。 基于 计数 的 方法 
o 基于 推理 的 方法 (word2vec ) 


首先 ， 我 们 将 简单 介绍 一 下 使 用 人 工整 理 好 的 同义词 词典 的 方法 。 然 
后 ， 对 利用 统计 信息 表示 单词 的 方法 ( 这 里 称 为 “基于 计数 的 方法 ”) 进行 说 
明 。 这 些 都 是 本 章 学 习 的 内 容 。 在 下 一 章 ， 我 们 将 讨论 利用 神经 网 络 的 基于 
推理 的 方法 ( 具体 来 说 ， 就 是 word2vec 方法 )。 本 章 的 结构 参考 了 斯 坦 福 大 


10] 
o 




















学 课程 “CS224d: Deep Learning for Natural Language Processing" | 


2.0 同义词 词典 





要 表示 单词 含义 ， 首 先 可 以 考虑 通过 人 工 方式 来 定义 单词 含义 。 一 种 方 
法 是 像 《 新 华 字 典 》 那 样 ， 一 个 词 一 个 词 地 说 明 单 词 含义 。 比 如 ， 当 你 用 字 
典 查 “汽车 ”这 个 单词 时 ， 就 会 看 到 “ 装 有 车 轮 并 依靠 它们 前 行 的 交通 工具 
或 运输 工具 …… ”这 样 的 说 明 。 通 过 像 这 样 定义 单词 ， 计 算 机 或 许 也 能 够 理 
解 单词 含义 。 

回顾 自然 语言 处 理 的 历史 ， 人 们 已 经 尝试 过 很 多 次 类 似 这 样 的 人 工 定 
义 单 词 含义 的 活动 。 但 是 ， 目 前 被 广泛 使 用 的 并 不 是 《新 华 字 典 》 那 样 的 
常规 词 由 ， 而 是 一 种 被 称 为 同义词 词典 (thesaurus ) 的 词 虚 。 在 同义词 词 
典 中 ， 具 有 相同 含义 的 单词 ( 同义词 ) 或 含义 类 似 的 单词 (近义词 ) 被 归 
类 到 同一 个 组 中 。 比 如 ， 使 用 同义词 词典 ， 我 们 可 以 知道 car 的 同义词 有 
automobile, motorcar 等 (网 2-1)。 
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(car) = (auto. | automobile | [machine | | motorcar | 

















2-1 同义词 的 例子 : car、auto 和 automobile 等 都 是 表示 “汽车 ”的 同义词 





另外 ,在 自然 语言 处 理 中 用 到 的 同义词 词典 有 时 会 定义 单词 之 间 的 粒度 
更 细 的 关系 ， 比 如 “上 位 -下 位 ”关系 、“ 整 体 - 部 分 ”关系 。 举 个 例子 ， 
如 图 2-2 所 示 ， 我 们 利用 图 结构 定义 了 各 个 单词 之 间 的 关系 。 








(object | 


m 


| motor vehicle | 


car ] ( go-kart | [truck | 














(SUV) | compact | ( hatch-back ] 














2-2 ”根据 各 单词 的 含义 ， 基 于 上 位 -下 位 关系 形成 的 图 (参考 文献 [14 ) 





在 图 2-2 中 ， 单 词 motor vehicle ( 机 动车 ) 是 单词 car 的 上 位 概念 。 
car 的 下 位 概念 有 SUV, compact 和 hatch-back 等 更 加 具体 的 车 种 。 

像 这 样 ， 通 过 对 所 有 单词 创建 近义词 集合 ， 并 用 图 表示 各 个 单词 的 关 
系 ， 可 以 定义 单词 之 间 的 联系 。 利 用 这 个 “单词 网 络 ”， 可 以 教会 计算 机 单 
词 之 间 的 相关 性 。 也 就 是 说 ， 我 们 可 以 将 单词 含义 (间接 地 ) 教 给 计算 机 ， 
然后 利用 这 一 知识 ， 就 能 让 计算 机 做 一 些 对 我 们 有 用 的 事情 。 
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如 何 使 用 同义词 词典 根据 自然 语言 处 理 的 具体 应 用 的 不 同 而 不 同 。 
比如 ， 在 信息 检索 场景 中 , 如 果 事 先知 道 automobile 和 car 是 近义词 ， 
就 可 以 将 automobile 的 检索 结果 添加 到 car 的 检索 结果 
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2.2.1 WordNet 











在 自然 语言 处 理 领域 ， 最 著名 的 同义词 词典 是 WordNet”, WordNet 
是 普林斯顿 大 学 于 1985 年 开始 开发 的 同义词 词典 ， 迄 今 已 用 于 许多 研究 ， 
并 活跃 于 各 种 自然 语言 处 理应 用 中 。 
使 用 WordNet ， 可 以 获得 单词 的 近义词 ， 或 者 利用 单词 网 络 。 使 用 单 
词 网 络 ， 可 以 计算 单词 之 间 的 相似 度 。 这 里 ， 我 们 不 对 WordNet 进行 详细 
说 明 ， 对 WordNet 的 Python 实现 感 兴趣 的 读者 ， 可 以 参考 附录 B。 在 附 
录 B 中 ， 我 们 会 安装 WordNet ( 准确 地 说 ， 是 安装 NLTK 模块 )， 并 进行 
一 些 简 单 的 实验 。 






























































在 附录 B 中 ， 我 们 将 实际 使 用 WordNet 来 计算 单词 之 间 的 相似 度 
有 具体 来 说 ， 就 是 基于 一 个 人 工 定 义 的 单词 网 络 ， 来 计算 单词 之 间 的 
似 度 。 如 果 能 (在 一 定 程度 上 正确 ) 计 算 单 词 之 间 的 相似 度 ， 那 么 
我 们 就 踏 出 了 理解 单词 含义 的 第 一 步 。 
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2.2.2 ”同义词 词典 的 问题 


WordNet 等 同义词 词典 中 对 大 量 单词 定义 了 同义词 和 层级 结构 关系 等 。 
利用 这 些 知 识 ， 可 以 〈 间 接地 ) 让 计算 机 理解 单词 含义 。 不 过 ， 人 工 标记 也 
存在 一 些 较 大 的 缺陷 。 下 面 ， 我 们 就 来 看 一 下 同义词 词典 的 主要 问题 ， 并 分 
别 对 其 进行 简要 说 明 。 





























难以 顺应 时 代 变 化 

我 们 使 用 的 语言 是 活 的 。 随 着 时 间 的 推移 ， 新 词 不 断 出 现 ， 而 那些 
落 满 尘埃 的 旧 词 不 知 哪 天 就 会 被 遗忘 。 比 如 ,“ 众 筹 ”( crowdfunding ) 
就 是 一 个 最 近 才 开始 使 用 的 新 词 。 

另外 ， 语 言 的 含义 也 会 随 着 时 间 的 推移 而 变化 。 比 如 ， 英 语 中 的 
heavy 一 词 ， 现 在 有 “事态 严重 ”的 含义 (主要 用 作 但 语 )， 但 以 前 是 
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没有 这 种 用 法 的 。 在 电影 《 回 到 未 来 》 中 ， 有 这 样 一 个 场景 : 从 1985 
年 穿越 回来 的 马 带 和 生活 在 1955 年 的 博士 的 对 话 中 ， 对 heavy 的 含义 
有 不 同 的 理解 。 如 果 要 处 理 这 样 的 单词 变化 ， 就 需要 人 工 不 停 地 更 新 同 
义 词 词典 。 
人 力 成 本 高 

制作 词典 需要 巨大 的 人 力 成 本 。 以 英文 为 例 ， 据 说 现 有 的 英文 单 
词 总 数 超过 1000 万 个 。 在 极端 情况 下 ， 还 需要 对 如 此 大 规模 的 单词 进 
行 单词 之 间 的 关联 。 顺 便 提 一 下 ，WordNet 中 收录 了 超过 20 万 个 的 
单词 。 


无 法 表示 单词 的 微妙 差异 

同义词 词典 中 将 含义 相近 的 单词 作为 近义词 分 到 一 组 。 但 实际 上 ， 
即使 是 含义 相近 的 单词 ， 也 有 细微 的 差别 。 比 如 ，vintage 和 retro $ 
然 表 示 相 同 的 含义 ， 但 是 用 法 不 同 ， 而 这 种 细微 的 差别 在 同义词 词典 中 
是 无 法 表示 出 来 的 ( 让 人 来 解释 是 相当 困难 的 )。 





因此 ,使 用 同义词 词典 ， 即 人 工 定义 单词 含义 的 方法 存在 很 多 问题 。 为 


了 避免 这 些 问题 ， 接 下 来 我 们 将 介绍 基于 计数 的 方法 和 利用 神经 网 络 的 基于 








推理 的 方法 。 这 两 种 方法 可 以 从 海量 的 文本 数据 中 自动 提取 单词 含义 ， 将 我 


们 从 人 工 关 联 单词 的 辛苦 劳动 中 解放 出 来 。 




















不 仅 限 于 自然 语言 处 理 ， 在 图 像 识别 领域 ， 多 年 来 也 一 直 是 人 工 设 
计 特 征 量 。 但 是 ， 随 着 深度 学 习 的 出 现 ， 现 在 从 原始 图 像 直接 获得 
最 终结 果 已 成 为 可 能 ， 人 为 介入 的 必要 性 大 幅 降低 。 在 自然 语言 处 
理 领 域 也 有 类 似 现象 。 也 就 是 说 ， 我 们 正在 从 人 工 制作 词典 或 设计 
特征 量 的 旧 范 式 ， 向 尽量 减少 人 为 干预 的 、 仅 从 文本 数据 中 获取 最 
终结 果 的 新 范式 转移 。 
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2.3 ”基于 计数 的 方法 


从 介绍 基于 计数 的 方法 开始 ， 我 们 将 使 用 语料库 ( corpus )。 简 而 言 之 ， 
语料库 就 是 大 量 的 文本 数据 。 不 过 ,语料库 并 不 是 胡乱 收集 数据 ， 一 般 收集 
的 都 是 用 于 自然 语言 处 理 研究 和 应 用 的 文本 数据 。 

说 到 底 , 语料库 只 是 一 些 文本 数据 而 已 。 不 过 ， 其 中 的 文章 都 是 由 人 写 
出 来 的 。 换 句 话说， 语料库 中 包含 了 大 量 的 关于 自然 语言 的 实践 知识 ， 即 文 
章 的 写作 方法 、 单 词 的 选择 方法 和 单词 含义 等 。 基 于 计数 的 方法 的 目标 就 是 
从 这 些 富有 实践 知识 的 语料库 中 ， 自 动 且 高 效 地 提取 本 质 。 


然 语言 处 理 领 域 中 使 用 的 语料库 有 时 会 给 文本 数据 添加 额外 的 
言 息 。 比 如 ， 可 以 给 文本 数据 的 各 个 单词 标记 词性 。 在 这 种 情况 
下 ， 为 了 方便 计算 机 处 理 ， 语 料 库 通常 会 被 结构 化 (比如 ， 采 用 


树 结构 等 数据 形式 )。 这 里 ， 假 定 我 们 使 用 的 语料库 没有 添加 标签 ， 
而 是 作为 一 个 大 的 文本 文件 ， 只 包含 简单 的 文本 数据 。 





















































































































































































































































2.3.1 基于 Python 的 语料库 的 预 处 理 


自然 语言 处 理 领 域 存在 各 种 各 样 的 语料库 。 说 到 有 名 的 语料库 ， 有 
Wikipedia 和 Google News 等 。 另 外 ， 莎 士 比 亚 、 夏 目 汶 石 等 伟大 作家 的 作 
品 集 也 会 被 用 作 语 料 库 。 本 章 我 们 先 使 用 仅 包含 一 个 句子 的 简单 文本 作为 语 
料 库 ， 然 后 再 处 理 更 实用 的 语料库 。 

现在 ， 我 们 使 用 Python 的 交互 模式 ， 对 一 个 非常 小 的 文本 数据 〈 语 料 
库 ) 进行 预 处 理 。 这 里 所 说 的 预 处 理 是 指 ， 将 文本 分 割 为 单词 (分 词 )， 并 
将 分 割 后 的 单词 列表 转化 为 单词 ID 列表 。 

下 面 ， 我 们 一 边 确 认 一 边 实 现 。 首 先 来 看 一 下 作为 语料库 的 样本 文章 。 













































































>>> text = 'You say goodbye and I say hello.' 








这 里 我 们 使 用 由 单个 句子 构成 的 文本 作为 语料库 。 本 来 文本 C text ) 应 
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该 包含 成 千 上 万 个 ( 连续 的 ) 句子 , 但是， 考虑 到 简洁 性 ， 这 里 先 对 这 个 小 
的 文本 数据 进行 预 处 理 。 下 面 ， 我 们 对 上 面 的 text 进行 分 词 。 

















>>> text = text.Lower() 
>>> text = text.replace('.', ' .') 
>>> text 


'you say goodbye and i say hello .' 


>>> words = text.split(' ') 
>>> words 


['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.'] 

















首先 ， 使 用 lower O 方法 将 所 有 字母 转化 为 小 写 ， 这 样 可 以 将 句子 开头 
的 单词 也 作为 常规 单词 处 理 。 然 后 ， 将 空格 作为 分 隔 符 ， 通 过 split(，') 切 
分 句子 。 考 虑 到 句子 结尾 处 的 句号 ( . )， 我 们 先 在 句号 前 插入 一 个 空格 ( 即 
用 “ .” 替 换 “.”)， 再 进行 分 词 。 
































这 里 ,在 进行 分 词 时 , 我 们 采用 了 一 种 在 句号 前 插入 空格 的 
“临时 对 策 "， 其 实 还 有 更 加 聪明 、 更 加 通用 的 实现 方式 ， 比 
如 使 用 正则 表达 式 。 通 过 导入 正则 表达 式 的 re 模块 ， 使 用 
re.split('(\wW+)?', text) 也 可 以 进行 分 词 。 关 于 正则 表达 式 的 


详细 信息 ， 可 以 参考 文献 15]. 






























































































































































现在 ， 我 们 已 经 可 以 将 原始 文章 作为 单词 列表 使 用 了 。 虽 然 分 词 后 文 
本 更 容易 处 理 了 ,但 是 直接 以 文本 的 形式 操作 单词 ， 总 感觉 有 些 不 方便 。 
此 ， 我们 进一步 给 单词 标 上 ID， 以便 使 用 单词 ID 列表。 为 此 ， 我 们 使 用 
Python 的 字典 来 创建 单词 ID 和 单词 的 对 应 表 。 











>>> word to id = {} 

>>> id to word = {} 

>>> 

>>> for word in words: 

if word not in word to id: 

new id - len(word to id) 
word to id[word] - new id 
id to word[new id] - word 
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变量 id to word 负责 将 单词 ID 转化 为 单词 ( 键 是 单词 ID ， 值 是 单词 )， 
word to id 负责 将 单词 转化 为 单词 ID。 这 里 ， 我 们 从 头 开 始 逐 一 观察 分 词 后 
的 words 的 各 个 元 素 ， 如 果 单 词 不 在 word to id 中 ， 则 分 别 向 word to id 和 
id to word 添加 新 ID 和 单词 。 另 外 ， 我 们 将 字典 的 长 度 设 为 新 的 单词 ID, 
单词 ID fi 0,1, 2,- 逐渐 增加 。 

这 样 一 来 ， 我 们 就 创建 好 了 单词 ID 和 单词 的 对 应 表 。 下 面 ， 我 们 来 实 
际 看 一 下 它们 的 内 容 。 























>>> id to word 
(0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6:'.') 
»»» word to id 
('you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6} 

















使 用 这 些 词典 ， 可 以 根据 单词 检索 单词 ID ， 或 者 反 过 来 根据 单词 ID 检 
索 单 词 。 我 们 实际 尝试 一 下 ， 如 下 所 示 。 











>>> id to word[1] 

'say' 

>>> word to id['hello'] 
5 


最 后 ， 我 们 将 单词 列表 转化 为 单词 ID 列表 。 这 里 ， 我 们 使 用 Python 
的 列表 解析 式 将 单词 列表 转化 为 单词 ID 列表 ， 然 后 再 将 其 转化 为 NumPy 
数组 。 





>>> import numpy as np 

»»» corpus - [word to id[w] for w in words] 
>>> corpus = np.array(corpus) 

>>> corpus 

array([0, 1, 2, 3, 4, 1, 5, 6]) 








列表 解析 式 (list comprehension ) 或 字典 解析 式 (dict comprehension ) 
是 一 种 便于 对 列表 或 字典 进行 循环 处 理 的 写法 。 比 如 ， 要 创建 元 素 
为 列表 xs 三 [1,2,3,4] 中 各 个 元 素 的 平方 的 新 列表 , 可 以 写成 [x**2 


for x in xs]. 
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至 此 ， 我 们 就 完成 了 利用 语料库 的 准备 工作 。 现 在 ， 我 们 将 上 述 一 系列 
处 理 实现 为 preprocess() 函数 (= common/util.py )。 


def preprocess(text): 
text = text.lower() 
text = text.replace('.', ' .') 
words = text.split(' ') 


word to id = {} 
id to word = {} 
for word in words: 
if word not in word to id: 
new id - len(word to id) 
word to id[word] = new id 


id to word[new id] = word 
corpus - np.array([word to id[w] for w in words]) 


return corpus, word to id, id to word 

















使 用 这 个 函数 ， 可 以 按 如 下 方式 对 语料库 进行 预 处 理 。 


>>> text = 'You say goodbye and I say hello.' 
>>> corpus, word to id, id to word = preprocess(text) 











到 这 里 ,语料库 的 预 处 理 就 结束 了 。 这 里 准备 的 corpus, word to id 和 
id to word 这 3 个 变量 名 在 本 书 接 下 来 的 很 多 地 方 都 会 用 到 。corpus 是 单词 
ID 列表 ，word_to_id 是 单词 到 单词 ID 的 字典 ，id_to_word 是 单词 ID 到 单词 
的 字典 。 

现在 ， 我 们 已 经 做 好 了 操作 语料库 的 准备 ， 接 下 来 的 目标 就 是 使 用 语 料 
库 提取 单词 含义 。 为 此 ， 本 节 我 们 将 考察 基于 计数 的 方法 。 采 用 这 种 方法 ， 
我 们 能 够 将 单词 表示 为 向 量 。 












































2.3.2 ”单词 的 分 布 式 表示 
世界 上 存在 各 种 各 样 的 颜色 ， 有 的 颜色 被 赋予 了 固定 的 名 字 ， 比 如 销 蓝 
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(cobalt blue) 或 者 鲜红 (zinc red); 颜色 也 可 以 通过 RGB ( Red/Green/ 
Blue) 三 原色 分 别 存 在 多 少 来 表示 。 前 者 为 不 同 的 颜色 赋予 不 同 的 名 字 ， 有 
多 少 种 颜色 ， 就 需要 有 多 少 个 不 同 的 名 字 ; 后 者 则 将 颜色 表示 为 三 维 向 量 。 

需要 注意 的 是 ,使 用 RGB 这 样 的 向 量 表示 可 以 更 准确 地 指定 颜色 ， 并 
且 这 种 基于 三 原色 的 表示 方式 很 紧凑 ， 也 更 容易 让 人 想象 到 具体 是 什么 颜 
色 。 比 如 ， 即 便 不 知道 “ 深 绯 ”是 什么 样 的 颜色 ， 但 如 果 知 道 它 的 (R, G， 
B) = (201, 23, 30) ， 就 至 少 可 以 知道 它 是 红色 系 的 颜色 。 此 外 ， 颜 色 之 间 的 
关联 性 〈 是 否 是 相似 的 颜色 ) 也 更 容易 通过 向 量 表示 来 判断 和 量化 。 

那么 ， 能 不 能 将 类 似 于 颜色 的 向 量 表示 方法 运用 到 单词 上 呢 ? 更 准确 地 
说 ， 可 和 否 在 单词 领域 构建 紧凑 合理 的 向 量 表示 呢 ? 接 下 来 ,我们 将 关注 能 准 
角 把 担 单 词 含义 的 向 量 表示 。 在 自然 语言 处 理 领 域 ， 这 称 为 分 布 式 表 示 。 


` 


2.3.3 ”分 布 式 假设 

在 自然 语言 处 理 的 历史 中 ， 用 向 量 表示 单词 的 研究 有 很 多 。 如 果 仔 
细 看 一 下 这 些 研究 ， 就 会 发 现 几乎 所 有 的 重要 方法 都 基于 一 个 简单 的 想 
法 ， 这 个 想法 就 是 “ 某 个 单词 的 含义 由 它 周 围 的 单词 形成 "， 称 为 分 布 式 假 
i (distributional hypothesis )。 许 多 用 向 量 表 示 单 词 的 近期 研究 也 基于 该 
假设 。 

分 布 式 假设 所 表达 的 理念 非常 简单 。 单 词 本 身 没 有 含义 ， 单 词 含义 由 它 
所 在 的 上 下 文 〈 语 境 ) 形成 。 的 确 ， 含 义 相 同 的 单词 经 常 出 现在 相同 的 语 境 
中 。 比 如 “I drink beer." "We drink wine.", drink 的 附近 常 有 饮料 出 现 。 
Yh, MA “I guzzle beer." "We guzzle wine.” 可 知 ，guzzle 和 drink 所 在 
的 语 境 相 似 。 进 而 我 们 可 以 推测 出 ，guzzle 和 drink 是 近义词 ( 顺便 说 一 下 , 



















































































司 定 长 度 的 向 量 。 这 种 向 量 的 特 
征 在 于 它 是 用 密集 向 量 表示 的 。 密 集 向 量 的 意思 是 ， 向 量 的 各 个 
元 素 ( 大 多 数 ) 是 由 非 0 实 数 表示 的 。 例如， 三 维 分 布 式 表示 是 
[0.21,-0.45,0.83]. 。 如 何 构建 这 样 的 单词 的 分 布 式 表 示 是 我 们 接 下 


来 的 一 个 重要 课题 。 








单词 的 分 布 式 表示 将 单词 表示 为 
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guzzle 是 “大 口 喝 ”的 意思 )。 





从 现在 开始 ， 我 们 会 经 常 使 用 “上 下 文 ”一 词 。 本 章 说 的 上 下 文 是 指 某 
个 单词 (关注 词 ) 周围 的 单词 。 在 图 2-3 的 例子 中 ， 左 侧 和 右 侧 的 2 个 单词 














就 是 上 下 文 。 











you say goodbye andi say hello. 








2-3 窗口 大 小 为 2 的 上 下 文 例子 。 在 关注 goodbye 时 ， 将 其 左右 各 2 个 单词 用 作 上 下 文 








如 图 2-3 所 示 ， 上 下 文 是 指 某 个 居中 单词 的 周围 词汇 。 这 里 ,我 们 将 上 











下 文 的 大 小 ( 即 周围 的 单词 有 多 少 个 ) 称 为 窗口 大 小 ( 





window size )。 窗 口 


大 小 为 1， 上 下 文 包 含 左 右 各 1 个 单词 ; 窗口 大 小 为 2， 上 下 文 包含 左右 各 


2 个 单词 ， 以 此 类 推 。 






































司 数量 的 单词 作为 上 下 文 (Biz. EE 




































































这 里 ,我 们 将 左右 两 边 机 
县 体 情况 ， 也 可 以 仅 将 左边 的 单词 或 者 右边 的 单词 作为 上 下 文 。 
比 外 ， 也 可 以 使 用 考虑 了 句子 分 隔 符 的 上 下 文 。 简 单 起 见 AP 












































2.3.4” 共 现 矩 阵 


又 处 理 不 考虑 句子 分 隔 符 、 左 右 单 词 数 量 相同 的 上 下 文 。 





下 面 ， 我 们 来 考虑 如 何 基于 分 布 式 假设 使 用 向 量 表 示 单 词 ， 最 直截了当 
的 实现 方法 是 对 周围 单词 的 数量 进行 计数 。 具 体 来 说 ， 在 关注 某 个 单词 的 情况 
下 ， 对 它 的 周围 出 现 了 多 少 次 什么 单词 进行 计数 ， 然 后 再 汇总 。 这 里 ,我 们 将 











这 种 做 法 称 为 “基于 计数 的 方法 ”"， 在 有 的 文献 中 也 称 为 


“基于 统计 的 方法 ”。 








现在 ， 我 们 就 来 看 一 下 基于 计数 的 方法 。 这 里 我 1 
库 和 preprocess() 图 数 ， 再 次 进行 预 处 理 。 








import sys 
sys.path.append('..') 
import numpy as np 


门 使 用 2.3.1 节 的 语 料 
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from common.util import preprocess 


text = 'You say goodbye and I say hello.' 
corpus, word to id, id to word - preprocess(text) 


print(corpus) 
# [01234156] 


print(id_to_word) 


# {0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: 


e IUE 


从 上 面 的 结果 可 以 看 出 ， 词 汇总 数 为 7 个 。 下 面 ， 我 们 计算 每 个 单词 的 
上 下 文 所 包含 的 单词 的 频数 。 在 这 个 例子 中 ， 我 们 将 窗口 大 小 设 为 1， 从 单 


词 ID 为 0 B you 开始 。 


从 图 2-4 可 以 清楚 地 看 到 ， 单 词 you 的 上 下 文 仅 有 say 这 个 单词 。 用 表 


格 表示 的 话 ， 如 图 2-5 所 示 。 





goodbye and i say hello . 











2-4 单词 you 的 上 下 文 





you say goodbye and i hello 

















2-5 用 表格 表示 单词 you 的 上 下 文中 包含 的 单词 的 频数 


图 2-5 表示 的 是 作为 单词 you 的 上 下 文 共 现 的 单词 的 频数 。 同 时 ， 这 也 


意味 着 可 以 用 向 量 [0, 1, 0, 0, 0, 0, 0] 表示 单词 you, 
接着 对 单词 ID 为 1 的 say 进行 同样 的 人 处理， 结果 如 图 2-6 所 示 。 








70 ”| 第 2 章 自然 语言 和 单词 的 分 布 式 表示 





























you bay goodbye and i say | hello . 
Neu 


Say goodbye and i hello 

















图 2-6 ”用 表格 表示 单词 say 的 上 下 文中 包含 的 单词 的 频数 





从 上 面 的 结果 可 知 ， 单 词 say 可 以 表示 为 向 量 [1,9, 1, 0, 1, 1, 0]。 
对 所 有 的 了 个 单词 进行 上 述 操作 ， 会 得 到 如 网 2-7 所 示 的 结果 。 





you say goodbye and 





say 





goodbye 





and 





i 





hello 









































图 2-7 用 表格 汇总 各 个 单词 的 上 下 文中 包含 的 单词 的 频数 


图 2-7 是 汇总 了 所 有 单词 的 共 现 单词 的 表格 。 这 个 表格 的 各 行 对 应 相应 
单词 的 向 量 。 因 为 图 2-7 的 表格 呈 和 矩阵 状 ， 所 以 称 为 共 现 矩阵 ( co-occurence 
matrix )。 

接 下 来 ， 我 们 来 实际 创建 一 下 上 面 的 共 现 矩阵。 这 里 ， 将 图 2-7 的 结果 
按 原样 手动 输入 。 


C= np.array([ 
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[0, 
[1, 
[0, 


了 
' 


了 


[0, 
[0, 
[0, 
], dtype-np. 


了 
' 


$ 


这 就 是 共 现 和 矩阵 。 


print(C[0]) 


print(C[4]) & 


1, 0 
0, 1 
1, 0 
[0, 0, 1 
1, 0 
1, 0 
0, 0 


# 单词 TD 为 6 的 让 
# [010 0 0 0 0] 


' 了 D 


' ' D 


D 


0, 0 
1, 1 
0, 0 
1, 0, 
0, 0 
0, 0 
9, 1 
) 


' D 


了 ' D 


0 
0 
1 
,0 
T 
0 
0 


O E) oco c 


了 


int32 


了 D 


使 用 这 个 共 现 矩阵 ， 可 以 获得 各 个 单词 的 向 量 ， 如 下 所 示 。 











[zin 














单词 TD 为 4 的 所 


[zn 


[0101000] 


print(C[word 


to id['goodbye']]) # goodbye 的 向 量 


* [0101000] 


至 此 ， 我 们 通 
共 现 矩阵 的 ， 但 这 一 操作 显然 可 以 自动 化 。 下 面 ， 我 们 来 实现 一 个 能 直接 从 








过 共 现 矩阵 成 功 地 用 向 量 表示 了 单词 。 上 面 我 们 是 手动 输 


























语料库 生成 共 现 矩 阵 的 函数 。 我 们 把 这 个 函数 称 为 create co matrix(corpus, 
vocab size, window size=1) ， 其 中 参数 corpus 是 单词 ID 列表 ， 参 数 vocab 





size 是 词汇 个 数 ， 








window size 是 窗口 大 小 ( common/util.py )。 


def create co matrix(corpus, vocab size, window size-1): 


corpus size - len(corpus) 


co matrix = np.zeros((vocab size, vocab size), dtype-np.int32) 


for idx, 
for 


word id in enumerate(corpus): 
i in range(1l, window size + 1) 
left idx = idx - i 
right idx = idx + i 


if left idx »- 0: 
left word id = corpus[left idx] 


co matrix[word id, left word id] += 1 


if right idx « corpus size: 
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right word id = corpus[right idx] 
co matrix[word id, right word id] += 1 


return co matrix 


首先 ， 用 元 素 为 0 的 二 维 数组 对 co matrix 进行 初始 化 。 然 后 ， 针 对 语 
ili. 一 个 单词 ， 计 算 它 的 窗口 中 包含 的 单词 。 同 时 ， 检 查 窗口 内 的 单 
否 超出 了 语料库 的 左 端 和 右 端 。 
这 样 一 来 ,无论 语料库 多 大 ， 都 可 以 自动 生成 共 现 和 矩阵。 之后， 我 们 都 
将 使 用 这 个 函数 生成 共 现 矩阵 。 




















2.3.5 向量 间 的 相似 度 

前 面 我 们 通过 共 现 矩阵 将 单词 表示 为 了 向 量 。 下 面 ， 我 们 看 一 下 如 何 测 
向 量 间 的 相似 度 。 
测量 向 量 间 的 相似 度 有 很 多 方法 ， 其 中 具有 代表 性 的 方法 有 向 量 内 
积 或 欧式 距离 等 。 虽 然 除 此 之 外 还 有 很 多 方法 ， 但 是 在 测量 单词 的 向 量 
表示 的 相似 度 方 面 ， 余 弦 相 似 度 (cosine similarity ) 是 很 常用 的 。 设 有 
T = (21,22,23,:::, En) MI y = (yi, yz 3, Yn) 两 个 向 量 ， 它 们 之 间 的 余 
弦 相 似 度 的 定义 如 下 式 所 示 。 





地 






































TY _ 2Z1V1 十 … 十 Zmym 
leol yr -ty (2.1) 








similarity (æ, y) = 


在 式 (2.1) 中 ， 分 子 是 向 量 内 积 ， 分 母 是 各 个 向 量 的 范 数 。 范 数 表示 向 
量 的 大 小 ， 这 里 计算 的 是 52 范 数 ( 即 向 量 各 个 元 素 的 平方 和 的 平方 根 )。 
IÑ (2.1) 的 要 点 是 先 对 向 量 进行 正规 化 ， 再 求 它们 的 内 积 。 


余弦 相似 度 直 观 地 表示 了 “两 个 向 量 在 多 大 程度 上 指向 同一 方向 ”。 
两 个 向 量 完全 指向 相同 的 方向 时 ,余弦 相似 度 为 1; 完全 指向 相反 


的 方向 时 ， 人 余弦 相似 度 为 一 1。 
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现在 ， 我 们 来 实现 余弦 相似 度 。 基 于 式 (2.1)， 代 人 码 如 下 所 示 。 


def cos similarity(x, y): 
nx = x / np.sqrt(np.sum(x**2)) # x 的 正规 化 
ny = y / np.sqrt(np.sum(y**2)) #y 的 正规 化 
return np.dot(nx, ny) 





这 里 ， 我 们 假定 参数 x 和 y 是 NumPy 数组 。 首 先 对 向 量 进行 正规 化 ， 
然后 求 两 个 向 量 的 内 积 。 这 里 余弦 相似 度 的 实现 虽然 完成 了 ， 但 是 还 有 一 个 
问题 。 那 就 是 当 零 向 量 (元素 全 部 为 0 的 向 量 ) 被 赋值 给 参数 时 ， 会 出 现 
“除数 为 0”( zero division ) 的 错误 。 

解决 此 类 问题 的 一 个 常用 方法 是 ， 在 执行 除法 时 加 上 一 个 微小 值 。 这 
里 ， 通 过 参数 指定 一 个 微小 值 eps (eps 是 epsilon 的 缩写 )， 并 默认 eps-1e-8 
( = 0.000 000 01)。 这 样 修改 后 的 余弦 相似 度 的 实现 如 下 所 示 (common/ 
util.py )。 























def cos similarity(x, y, eps-1e-8): 
nx = x / (np.sqrt(np.sum(x ** 2)) + eps) 
ny = y / (np.sqrt(np.sum(y ** 2)) + eps) 
return np.dot(nx, ny) 
































这 里 我 们 用 了 1e-8 作 为 微小 值 ， 在 这 么 小 的 值 的 情况 下 ， 根 据 浮 点 
数 的 舍 入 误差 ， 这 个 微小 值 会 被 其 他 值 “ 吸 收 " 掉 。 在 上 面 的 实现 中 ， 
因为 这 个 微小 值 会 被 向 量 的 范 数 “吸收 ” 掉 ， 所 以 在 绝 大 多 数 情 况 下 ， 
加 上 eps 不 会 对 最 终 的 计算 结果 造成 影响 。 而 当 向 量 的 范 数 为 0 时 ， 
这 个 微小 值 可 以 防止 “除数 为 0” 的 错误 。 































































































































































































利用 这 个 函数 ， 可 以 如 下 求 得 单词 向 量 间 的 相似 度 。 这 里 ， 我 们 尝试 求 
you 和 i (=I) 的 相似 度 (= ch02/similarity.py )。 
import sys 


sys.path.append('..') 
from common.util import preprocess, create co matrix, cos similarity 
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text = 'You say goodbye and I say hello.' 
corpus, word to id, id to word - preprocess(text) 
vocab size - len(word to id) 


C = create co matrix(corpus, vocab size) 


c0 = C[word to id['you']]  # you pgi] 
cl = C[word to id['i']] # 工 的 单词 向 量 
print(cos similarity(c0, c1)) 

# 0.7071067691154799 

















从 上 面 的 结果 可 知 ，you 和 i 的 余弦 相似 度 是 0.70 ...。 由 于 余弦 相似 度 
的 取 值 范围 是 -1 到 1， 所 以 可 以 说 这 个 值 是 相对 比较 高 的 (存在 相似 性 )。 














2.3.6 ”相似 单词 的 排序 


余弦 相似 度 已 经 实现 好 了 ， 使 用 这 个 函数 ， 我 们 可 以 实现 另 一 个 便利 的 
函数 : II din dt 将 与 p vdd Ho 
来 。 这 里 将 这 个 函数 称 为 most_simitar()， 通 过 下 列 参 数 进 行 实现 (Æ 2-1). 


most similar(query, word to id, id to word, word matrix, top-5) 


表 2-1 most similar() 国 数 的 参数 


query 查询 词 



































word to id 单词 到 单词 ID 的 字典 
id to word 单词 ID 到 单词 的 字典 
word matrix 汇总 了 单词 向 量 的 矩阵 ， 假 定 保 存 了 与 各 行 对 应 的 单词 向 量 





top 显示 到 前 几 位 








这 里 我 们 直接 给 出 most_similar() 函数 的 实现 ， 如 下 所 示 (= common/ 
util.py )。 


def most similar(query, word to id, id to word, word matrix, top=5): 
# exei 
if query not in word to id: 
print('%s is not found' % query) 
return 
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print('\n[query] ' + query) 
query id = word to id[query] 


query vec - word matrix[query id] 


# 四 计算 余弦 相似 度 

vocab size = len(id to word) 
similarity - np.zeros(vocab size) 
for i in range(vocab size): 


similarity[i] = cos similarity(word matrix[i], query vec) 


# 图 基于 余弦 相似 度 ， 按 降序 输出 值 
Count = 0 


for i in (-1 * similarity).argsort(): 


if id to word[i] -- query: 

continue 
print(' 9:5: %s' % (id to word[i], similarity[i])) 
count += 1 


if count »- top: 


return 
上 述 实现 按 如 下 顺序 执行 。 


@ 取出 查询 词 的 单词 向 量 。 
@ 分 别 求 得 查询 词 的 单词 向 量 和 其 他 所 有 单词 向 量 的 余弦 相似 度 。 
O 基于 余弦 相似 度 的 结果 ， 按 降序 显示 它们 的 值 。 





我 们 仅 对 步骤 @ 进 行 补充 说 明 。 在 步骤 @ 中 ， 将 similarity 数组 中 的 元 
素 索引 按 降序 重新 排列 ， 并 输出 顶部 的 单词 。 这 里 使 用 argsort() 方法 对 数 
组 的 索引 进行 了 重 排 。 这 个 argsort O 方法 可 以 按 升序 对 NumPy 数组 的 元 
素 进行 排序 ( 不过， 返回 值 是 数组 的 索引 )。 下 面 是 一 个 例子 。 























>>> x = np.array([100, -20, 2]) 
>>> x.argsort() 
array([1, 2, 0]) 





上 述 代码 对 NumPy 数组 [100, -20, 21 的 各 个 元 素 按 升序 进行 了 排列 。 
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此 时 ， 返回 的 数组 的 各 个 元 素 对 应 原 数 组 的 索引 。 上 述 结果 的 顺序 是 “第 1 
个 元 素 (一 20 “第 2 个 元 素 (2 了 a (100 了 。 现 在 我 们 想 做 的 
是 将 单词 的 相似 度 按 降序 排列 ， 因 此 ， 将 NumPy 数组 的 各 个 元 素 乘 以 —1 
后 ， 再 使 用 argsort() 方法 。 接 着 上 面 的 例子 ， 有 如 下 代码 。 
































>>> (-x).argsort() 
array([0, 2, 1]) 


使 用 这 个 argsort()， 可 以 按 降 序 输出 单词 相似 度 。 以 上 就 是 most_ 
similar() 函数 的 实现 ， 下 面 我 们 来 试 着 使 用 一 下 。 这 里 将 you 作为 查询 词 ， 
显示 与 其 相似 的 单词 ， 代 码 如 下 所 示 (Sch82/most_similar.py )。 








import sys 
sys.path.append('..') 
from common.util import preprocess, create co matrix, most similar 


text = 'You say goodbye and I say hello.' 

corpus, word to id, id to word - preprocess(text) 
vocab size - len(word to id) 

C = create co matrix(corpus, vocab size) 


most similar('you', word to id, id to word, C, top-5) 

















执行 代码 后 ， 会 得 到 如 下 结果 。 


[query] you 

goodbye: 0.7071067691154799 
i: 0.7071067691154799 
hello: 0.7071067691154799 
say: 0.0 

and: 0.0 


这 个 结果 只 按 降序 显示 了 you 这 个 查询 词 的 前 5 个 相似 单词 ， 各 个 单 
词 和 旁边 的 值 是 余弦 相似 度 。 观 察 上 面 的 结果 可 知 ， 和 you 最 接近 的 单词 有 3 


个 ， 分 别 是 goodbye, i ( — I) 和 hello。 因 为 1 和 you 都 是 人 称 代 词 ， 所 以 
二 者 相似 可 以 理解 。 但 是 ，goodbye 和 hello 的 余弦 相似 度 也 很 高 ， 这 和 我 
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们 的 感觉 存在 很 大 的 差异 。 一 个 可 能 的 原因 是 ， 这 里 的 语料库 太 小 了 。 后 国 
我 们 会 用 更 大 的 语料库 进行 相同 的 实验 。 

如 上 所 述 ， 我 们 通过 共 现 矩阵 成 功 地 将 单词 表示 为 了 向 量 。 至 此 ， 基 
于 计数 的 方法 的 基本 内 容 就 介绍 完了 。 之 所 以 说 “基本 ”， 是 因为 还 有 许多 
事情 需要 讨论 。 下 一 他， 我 们 将 说 明 当 前 方法 的 改进 思路 ， 并 实现 这 个 改进 
思路 。 






































2.4 基于 计数 的 方法 的 改进 


上 一 节 我 们 创建 了 单词 的 共 现 矩阵 ， 并 使 用 它 成 功 地 将 单词 表示 为 了 向 
量 。 但 是 ， 这 个 共 现 矩阵 还 有 许多 可 以 改进 的 地 方 。 本 节 我 们 将 对 其 进行 改 
， 并 使 用 更 实用 的 语料库 ， 获 得 单词 的 “真实 的 ”分 布 式 表示 。 














2.4.1 点 互信 息 








上 一 节 的 共 现 矩阵 的 元 素 表示 两 个 单词 同时 出 现 的 次 数 。 但 是 ， 这 种 
“原始 ”的 次 数 并 不 具备 好 的 性 质 。 如 果 我 们 看 一 下 高 频 词汇 ( 出 现 次 数 很 
多 的 单词 )， 就 能 明白 其 原因 了 。 

比如 ， 我 们 来 考虑 某 个 语料库 中 the 和 car 共 现 的 情况 。 在 这 种 情况 下 ， 
我 们 会 看 到 很 多 “...the car...” 这 样 的 短语 。 因 此 ， 它 们 的 共 现 次 数 将 会 很 
大 。 男 外 ，car 和 drive 也 明显 有 很 强 的 相关 性 。 但 是 ， 如 果 只 看 单词 的 出 
现 次 数 ， 那 么 与 drive 相 比 ，the 和 car 的 相关 性 更 强 。 这 意味 着 ， 仅 仅 因 
为 the 是 个 常用 词 ， 它 就 被 认为 与 car 有 很 强 的 相关 性 。 

为 了 解决 这 一 问题 ， bius 点 互信 息 (Pointwise Mutual Information, 
PMI) 这 一 指标 。 对 于 随机 变量 x My, CNW PMI 定义 如 下 (关于 概率 ， 
将 在 3.5.1 节 详 细 说 明 ): 










































































P: 
PMlI(z, y) = log2 5 1 a (2.2) 
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其 中 ，P(z) 表示 z 发 生 的 概率 ，P(y) RI y RÆK, P(x,y) 表示 m 
和 同时 发 生 的 概率 。PMI 的 值 越 高 ， 表 明 相 关 性 越 强 。 

在 自然 语言 的 例子 中 ，P(z) 就 是 指 单词 z 在 语料库 中 出 现 的 概率 。 假 设 
某 个 语料库 中 有 10000 个 单词 ， 其 中 单词 the 出 现 了 100 次 ， 则 P("the") = 
o = 0.01。 另外 ，P(z,y) 表示 单词 x 和 Y 同时 出 现 的 概率 。 假设 the 和 
car 一 起 出 现 了 10 次 ， 则 P("the", "car") = 105 = 0.001。 

现在 ， 我 们 使 用 共 现 矩阵 ( 其 元 素 表示 单词 共 现 的 次 数 ) 来 重 写 式 (2.2)。 
这 里 ,将 共 现 矩阵 表示 为 C， 将 单词 z 和 的 共 现 次 数 表示 为 C(x,y), 将 
单词 z 和 yy 的 出 现 次 数 分 别 表示 为 C(z)、C(y)， 将 语料库 的 单词 数量 记 为 
N, MÈ (2.2) 可 以 重 写 为 : 











Pizay) ON L 
PMI y) eio prp "eg cu; E Ce 








根据 式 (2.3)， 可 以 由 共 现 矩阵 求 PMI。 下 面 我 们 来 具体 地 算 一 下 。 这 
里 假设 语料库 的 单词 数量 (UN ) 为 10 000, the 出 现 100 次 ，car 出 现 20 次 ， 
drive 出 现 10 X, the 和 car IE 10 次 ，car 和 drive 共 现 5 次 。 这 时 ， 如 
果 从 共 现 次 数 的 角度 来 看 ， 则 与 drive 相 比 ，the 和 car 的 相关 性 更 强 。 而 
如 果 从 PMI 的 角度 来 看 ， 结 果 是 怎样 的 呢 ? 我 们 来 计算 一 下 。 











10 - 10000 


PMI("the", "car") = logs 00030 


~ 2.32 (2.4) 


5- 10000 
20-10 





PMlI("car", "drive") = logs ~ T.97 (2.5) 




















结果 表明 ， 在 使 用 PMI 的 情况 下 ， 与 the 相 比 ，drive 和 car 具有 更 强 
的 相关 性 。 这 是 我 们 想 要 的 结果 。 之 所 以 出 现 这 个 结果 ， 是 因为 我 们 考虑 了 
单词 单独 出 现 的 次 数 。 在 这 个 例子 中 ， 因 为 the 本身 出 现 得 多 ， 所 以 PMI 
的 得 分 被 拉 低 了 。 式 中 的 “s”(near equal ) 表示 近似 相等 的 意思 。 

虽然 我 们 已 经 获得 了 了 PMI 这 样 一 个 好 的 指标 ， 但 是 PMI 也 有 一 个 问题 。 
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那 就 是 当 两 个 单词 的 共 现 次 数 为 0 时 ，log2z0 = -co。 为 了 解决 这 个 问题 ， 
实践 上 我 们 会 使 用 下 述 正 的 点 互信 息 (Positive PMI, PPMI). 





PPMI(z, y) = max(0,PMI(z, y)) (2.6) 





根据 式 (2.6)， 当 PMI 是 负数 时 ， 将 其 视 为 0， 这 样 就 可 以 将 单词 间 
的 相关 性 表示 为 大 于 等 于 0 的 实数 。 下 面 ， 我 们 来 实现 将 共 现 矩阵 转化 为 
PPMI 和 矩阵 的 函数 。 我 们 把 这 个 函数 称 为 ppmi(C，verbose=FaLse，eps=le-8) 


(= common/util.py )。 














def ppmi(C, verbose-False, eps-le-8): 
M = np.zeros like(C, dtypeznp.float32) 
N = np.sum(C) 
S = np.sum(C, axis=0) 
total = C.shape[0] * C.shape[1] 
cnt = 0 


for i in range(C.shape[0]) : 
for j in range(C.shape[1]): 
pmi = np.log2(C[i, j] * N / (S[j]*S[i]) + eps) 
M[i, j] = max(0, pmi) 


if verbose: 


m 


cnt += 
if cnt % (total//10041) == 
print('%.1f%% done' % (100*cnt/total)) 
return M 


这 里 ， 参 数 5 表示 共 现 矩阵 ，verbose 是 决定 是 否 输出 运行 情况 的 标志 。 
当 隶 理 大 语料库 时 设置 verbose=True， 可 以 用 于 确认 运行 情况 。 在 这 段 代 码 
中 ,为 了 仅 从 共 现 矩阵 求 PPMI 矩阵 而 进行 了 简单 的 实现 。 具 体 来 说 ， 当 单 
词 z 和 gy 的 共 现 次 数 为 C(x,y) 时 , C(x) 2 34C(i x). C(y) = 34C(5 y). 
入 = DjC(i,7)， 进 行 这 样 近似 并 实现 。 另 外 ， 在 上 述 代码 中 ,为 了 防 
止 np.Log2(0)=-inf 而 使 用 了 微小 值 eps。 
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在 2.3.5 节 中 ,为 了 防止 “除数 为 0” 的 错误 ,我 们 给 分 母 添 加 了 
个 微小 值 。 这 里 也 一 样 ， 通 过 将 np. log (x) 改 为 np.Log(x + eps), 
可 以 防止 对 数 运算 发 散 到 负 无 穷 大 。 
























































现在 将 共 现 矩阵 转化 为 PPMI 和 矩阵， 可 以 像 下 面 这 样 进行 实现 (= ch02/ 








ppmi.py )。 


import sys 

sys.path.append('..') 

import numpy as np 

from common.util import preprocess, create co matrix, cos similarity, 


—  ppmi 


text = 'You say goodbye and I say hello.' 

corpus, word to id, id to word - preprocess(text) 
vocab size - len(word to id) 

C = create co matrix(corpus, vocab size) 


W = ppmi(C) 


np.set printoptions(precision-3) # 有 效 位 数 为 3 位 


print('covariance matrix') 





运行 该 文件 ， 可 以 得 到 下 述 结果 。 


covariance matrix 


[[010 0 0 0 0] 
[1010 1 1 0] 
[010 1 0 0 0] 
[080 10 1 0 0] 
[0810 1 0 0 0] 
[0 10 0 0 0 1] 
[0 0 0 0 0 1 0]] 
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PPMI 

[[ 0. 1.807 90. 0. 9. 9. 9. ] 
[ 1.807 ©. 0.807 0. 0.807 0.807 9. ] 
[ 0. 0.807 9. 1.807 9. 9. 9. ] 
[ 0. 9. 1.807 90. 1.807 90. 9. ] 
[ 0: 0.807 0. 1.807 9. 9. 9. ] 
[ 0. 0.807 9. 0. 9. 9. 2.807] 
[ 0. 9. 9. 0. 9. 2.807 9. 1] 





这 样 一 来 ,我们 就 将 共 现 矩阵 转化 为 了 PPMI ERE., IEI, PPMIAE 
阵 的 各 个 元 素 均 为 大 于 等 于 0 的 实数 。 我 们 得 到 了 一 个 由 更 好 的 指标 形成 的 
和 矩 阵 ， 这 相当 于 获取 了 一 个 更 好 的 单词 向 量 。 

但 是 ， 这 个 PPMI 矩阵 还 是 存在 一 个 很 大 的 问题 ， 那 就 是 随 着 语料库 
的 词汇 量 增加 ， 各 个 单词 向 量 的 维 数 也 会 增加 。 如 果 语 料 库 的 词汇 量 达到 
10 万 ， 则 单词 向 量 的 维 数 也 同样 会 达到 10 万 。 实 际 上 ， 处 理 10 万 维 向 量 
是 不 现实 的 。 

另外 ， 如 果 我 们 看 一 下 这 个 和 矩阵， 就 会 发 现 其 中 很 多 元 素 都 是 0。 这 表 
明 向 量 中 的 绝 大 多 数 元 素 并 不 重要 ， 也 就 是 说 ， 每 个 元 素 拥 有 的 “重要 性 ” 
很 低 。 另 外 ， 这 样 的 向 量 也 容易 受到 噪声 影响 ， 稳 健 性 差 。 对 于 这 些 问 题 ， 
一 个 常见 的 方法 是 向 量 降 维 。 

































































2.4.2 ” 降 维 

PRAZE (dimensionality reduction )， 顾 名 思 义 ， 就 是 减少 向 量 维度 。 
但 是 ， 并 不 是 简单 地 减少 ， 而 是 在 尽量 保留 “重要 信息 ”的 基础 上 减少 。 如 
图 2-8 所 示 ， 我 们 要 观察 数据 的 分 布 ， 并 发 现 重要 的 “ 轴 ”。 























limi 
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图 2-8 RETEA: 发 现 重要 的 轴 ( 数据 分 布 广 的 轴 )， 将 二 维 数据 表示 为 一 维 数据 











在 图 2-8 中 ， 考 虑 到 数据 的 广度 ， 导 入 了 一 根 新 轴 ， 以 将 原来 用 二 维 坐 
标 表示 的 点 表示 在 一 个 坐标 轴 上 。 此 时 ， 用 新 轴 上 的 投影 值 来 表示 各 个 数据 
点 的 值 。 这 里 非常 重要 的 一 点 是 ， 选 择 新 轴 时 要 考虑 数据 的 广度 。 如 此 ， 仅 
使 用 一 维 的 值 也 能 捕获 数据 的 本 质 差 异 。 在 多 维 数据 中 ， 也 可 以 进行 同样 的 
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[5 && FP RS X Ze 3 70 28 73 0 BS XB Ie (E E ) 5073 FS Ae De (S I e 
=) x8B mE, MANOS HEA 少 的 维度 对 


其 进行 重新 表示 。 结 果 ， "———— 
0 的 密集 矩阵 。 这 个 密集 矩阵 就 是 我 们 想 要 的 单词 的 分 布 式 表示 。 

































































降 维 的 方法 有 很 多 ， 这 里 我 们 使 用 奇异 值 分 解 (Singular Value 
Decomposition, SVD )。SVD 将 任意 矩阵 分 解 为 3 个 矩阵 的 乘积 ， 如 下 式 
所 示 : 




















X=USVT (2.7) 


如 式 (2.7) 所 示 ，SVD 将 任意 的 矩阵 入 分 解 为 U、S、V 这 3 个 矩阵 的 
Jefa, Hp UR V dés p] t (UH IEEE SABE, S 是 除了 对 角 线 元 素 以 
外 其 余 元 素 均 为 0 的 对 角 和 矩阵 。 图 2-9 中 直观 地 表示 出 了 这 些 矩 阵 。 
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图 2-9 基于 SVD 的 矩阵 变换 (白色 部 分 表示 元 素 为 0) 


在 式 (2.7) 中 ,， 巡 是 正 交 和 矩阵 。 这 个 正 交 和 矩阵 构成 了 一 些 空间 中 的 基 轴 
( 基 向 量 )， 我 们 可 以 将 矩阵 五 作为 “单词 空间 "。3 EREE, SEAE 
对 角 线 上 降序 排列 。 简 单 地 说 ， 我 们 可 以 将 奇异 值 视 为 “对 应 的 基 轴 ”的 重 
要 性 。 这 样 一 来 ， 如 图 2-10 所 示 ，, 减少 非 重 要 元 素 就 成 为 可 能 。 














降 维 后 的 
单词 向 量 单词 向 量 
单词 ID 单词 ID 
n 一 一 H — 





X xy U' [v7 














图 2-10 基于 SVD 的 降 维 示意 图 


如 图 2-10 Brzs, JERE S 的 奇异 值 小 ， 对 应 的 基 轴 的 重要 性 低 ， 因 此 ， 
可 以 通过 去 除 和 矩阵 器 中 的 多 余 的 列 向 量 来 近似 原始 和 矩阵。 用 我 们 正在 处 理 
的 “单词 的 PPMI 矩阵 ”来 说 明 的 话 ， 和 矩阵 处 的 各 行 包含 对 应 的 单词 ID 
的 单词 向 量 ， 这 些 单词 向 量 使 用 降 维 后 的 矩阵 U’ 表示 。 


单词 的 共 现 和 矩阵 是 正方 形 矩 阵 ， 但 在 图 2-10 中 ， 为 了 和 之 前 的 
图 一 致 ， 画 的 是 长 方形 。 另外， 这 里 对 SVD 的 介绍 仅 限 于 最 直 
观 的 概要 性 的 说 明 。 想 从 数学 角度 仔细 理解 的 读者 ， 请 参考 文献 


20] 等 。 
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2.4.3 基于 SVD 的 降 维 








接 下 来 ， 我 们 使 用 Python 来 实现 SVD， 这 里 可 以 使 用 NumPy 的 
linalg 模块 中 的 svd 方法 。linalg 是 linear algebra ( 线性 代数 ) 的 简称 。 下 
面 ， 我 们 创建 一 个 共 现 矩 阵 ， 将 其 转化 为 PPMI 和 矩阵， 然后 对 其 进行 SVD 











(= ch02/count method small.py), 


import sys 

sys.path.append('..') 

import numpy as np 

import matplotlib.pyplot as plt 

from common.util import preprocess, create co matrix, ppmi 


text = 'You say goodbye and I say hello.' 

corpus, word to id, id to word - preprocess(text) 

vocab size - len(id to word) 

C = create co matrix(corpus, vocab size, window size-1) 
W= ppmi(C) 


# SVD 
U, S, V = np.linalg.svd(W) 


SVD ATE., EWIE UBERA SVD 转化 的 密集 向 量 表示 。 现 








在 ， 我 们 来 看 一 下 它 的 内 容 。 单 词 ID 为 0 的 单词 向 量 如 下 。 


print(C[0]) # 共 现 矩阵 
* [0100 0 90 0] 


print(W[0]) 4 PPMI 和 矩阵 
& [ 90. 1.807 0. 9. 0. 0. 0. ] 


print(U[0]) # SVD 
# [ 3.409e-01 -1.110e-16 -1.205e-01 -4.441e-16 0.000e+00 -9.323e-01 
4  2.226e-16] 


mt 
可 
地 


如 上 所 示 ， 原 先 的 稀 玖 向 量 W[9] 经 过 SVD 被 转化 成 了 窗外 











U[0]。 
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如 果 要 对 这 个 密集 向 量 降 维 ， 比 如 把 它 降 维 到 二 维 向 量 ， 取 出 前 两 个 元 素 











print(U[0，:2]) 
# [ 3.409e-01 -1.110e-16] 





这 样 我 们 就 完成 了 降 维 。 现 在 ， 我 们 用 二 维 向 量 表 示 各 个 单词 ， 并 把 它 
们 画 在 图 上 ， 代 码 如 下 。 





for word, word id in word to id.items(): 
plt.annotate(word, (U[word id, 0], U[word id, 1])) 


plt.scatter(U[:,0], U[:,1], alphaz0.5) 
plt.show() 





plt.annotate(word, x, y) pK Ze 2D 图 形 中 坐标 为 (x, y) 的 地 方 绘制 单 
词 的 文本 。 执 行 上 述 代码 ， 结 果 如 图 2-11 RO 。 





























0.0 4 gou ¿goodbye gellp 
id 
-0.2 4 
-034 
—044 
—0.55] end 
-09.6. 6y 
e 
00 01 02 03 04 05 06 07 











2-11 XHEDBMERRGSVD, HERLAER LEE (iR goodbye EZ) 





D 根据 操作 系统 的 种 类 或 Matplotlib 版 本 的 不 同 ， 输 出 的 图 可 能 和 图 2-11 所 有 不 同 。 
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观察 该 图 可 以 发 现 ，goodbye 和 hello, you 和 ji 位 置 接近 ， 这 是 比较 符 
合 我 们 的 直觉 的 。 但 是 ， 因 为 我 们 使 用 的 语料库 很 小 ， 有 些 结果 就 比较 入 
妙 。 下 面 ， 我 们 将 使 用 更 大 的 PTB 数据 集 进行 相同 的 实验 。 首 先 ， 我们 简 
单 介绍 一 下 PTB 数据 集 。 


如 果 和 矩阵 大 小 是 W，SVD 的 计算 的 复杂 度 将 达到 O(N?)。 这 意味 
SVD 需 要 与 入 的 立方 成 比例 的 计算 量 。 因 为 现实 中 这 样 的 计算 


量 是 做 不 到 的 , 所 以 往往 会 使 用 Truncated SVDP! 等 更 快 的 方法 。 
Truncated SVD 通 过 截 去 (truncated) 奇 异 值 较 小 的 部 分 ， 从 
而 实现 高 速 化 。 下 一 节 ， 作 为 另 一 个 选择 ， 我 们 将 使 用 sklearn 
库 的 Truncated SVD。 

































































































































































2.4.4 ”PTB 数据 集 

到 目前 为 止 ， 我 们 使 用 了 非常 小 的 文本 数据 作为 语料库 。 这 里 ， 我 们 将 
使 用 一 个 大 小 合适 的 “真正 的 ”语料库 一 一 Penn Treebank 语料库 (以 下 
简称 为 PTB )。 


PTB 语料库 经 常 被 用 作 评 价 提案 方法 的 基准 。 本 书 中 我 们 将 使 
PTB 语料库 进行 各 种 实验 。 


我 们 使 用 的 PTB 语料库 在 word2vec 的 发 明 者 托马斯 米 科 洛 夫 
( Tomas Mikolov ) 的 网 页 上 有 提供 。 这 个 PTB 语料库 是 以 文本 文件 的 形式 
提供 的 ,与 原始 的 PTB 的 文章 相 比 ， 多 了 若干 预 处理 ， 包 括 将 稀有 单词 赫 
换 成 特殊 字符 <unk> (unk 是 unknown 的 简称 )， 将 具体 的 数字 替换 成 “N” 
等 。 下 面 ， 我 们 将 经 过 这 些 预 处 理 之 后 的 文本 数据 作为 PTB 语料库 使 用 。 
作为 参考 ， 图 2-12 给 出 了 PTB 语料库 的 部 分 内 容 。 

如 图 2-12 所 示 ， 在 PTB 语料库 中 ， 一 行 保存 一 个 句子 。 在 本 书 中 , 我 
们 将 所 有 句子 连接 起 来 ， 并 将 其 视 为 一 个 大 的 时 序数 据 。 此 时 ， 在 每 个 句子 
的 结尾 处 插入 一 个 特殊 字符 «eos» ( eos 是 end of sentence 的 简称 )。 
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consumers may want to move their telephones a little closer to the tv set 

2 «unk» <unk> watching abc 's monday night football can now vote during <unk> for the greatest play in N years from 
among four or five «unk» <unk> 

3 two weeks ago viewers of several nbc «unk» consumer segments started calling a N number for advice on various 
«unk» issues 

4 and the new syndicated reality show hard copy records viewers ' opinions for possible airing on the next day 's show 

5 interactive telephone technology has taken a new leap in «unk» and television programmers are racing to exploit the 
possibilities 

6 eventually viewers may grow <unk> with the technology and «unk» the cost 











2-12 PTB 语 料 库 ( 文 本 文件 ) 的 例子 








本 书 不 考虑 句子 的 分 割 ， 将 多 个 句子 连接 起 来 得 到 的 内 容 视 为 一 
个 大 的 时 序数 据 。 当 然 ， 也 可 以 以 句子 为 单位 进行 处 理 ， 比 如 ， 
以 句子 为 单位 计算 词 频 。 不 过 ， 考 虑 到 简单 性 ， 本 书 不 进行 以 句 
子 为 单位 的 处 理 。 







































































在 本 书 中 ， 为 了 方便 使 用 Penn Treebank 数据 集 ， 我 们 准备 了 专门 
的 Python 代码。 这 个 文件 在 dataset/ptb.py 中 ， 并 假定 从 章节 目录 (chol, 
ch02, ..) 使 用 。 比 如 ， 我 们 将 当前 目录 移 到 che2 目录 ， 并 在 这 个 目录 中 调用 
python show_ptb.py。 使 用 ptb.py 的 例子 如 下 所 示 (= ch62/show ptb.py )。 




















import sys 
sys.path.append('..') 
from dataset import ptb 


corpus, word to id, id to word - ptb.load data('train') 


print('corpus size:', len(corpus)) 
print('corpus[:30]:', corpus[:30]) 

print() 

print('id to word[0]:', id to word[0]) 
print('id to word[1]:', id to word[1]) 
print('id to word[2]:', id to word[2]) 

print() 

print("word to id['car']:", word to id['car']) 

















| 第 2 章 ， 自 然 语言 和 单词 的 分 布 式 表示 











print("word to id['happy']:", word to id['happy']) 
print("word to id['lexus']:", word to id['lexus']) 














后 面 再 具体 解释 这 段 代 码 ， 我 们 先 来 看 一 下 它 的 执行 结果 。 





corpus size: 929589 

corpus[:39]: [0123456789 10 11 12 13 14 15 16 17 18 
19 20 21 22 23 

24 25 26 27 28 29] 


id to word[0]: aer 
id to word[1]: banknote 
id to word[2]: berlitz 


word to id['car']: 3856 
word to id['happy']: 4428 
word to id['lexus']: 7426 











语料库 的 用 法 和 之 前 一 样 。corpus 中 保存 了 单词 ID JA, id to word 是 





将 单词 ID 转化 为 单词 的 字典 ，word_ to id 是 将 单词 转化 为 单词 ID 的 字典 。 








如 上 面 的 代码 所 示 ， 使 用 ptb.load data() 加 载 数据 。 此 时 ， 指 定 参 








数 'train' 、'test' 和 'valid' 中 的 一 个 ， 它 们 分 别 对 应 训练 用 数据 、 测 试用 
数据 和 验证 用 数据 中 的 一 个 。 以 上 就 是 ptb.py 文件 的 使 用 方法 。 











2.4.5 ”基于 PTB 数据 集 的 评价 

















下 面 ， 我 们 将 基于 计数 的 方法 应 用 于 PTB 数据 集 。 这 里 建议 使 用 更 快 














速 的 SVD 对 大 和 矩阵 执行 SVD， 为 此 我 们 需要 安装 sklearn 模块 。 当 然 ， 虽 
然 仍 可 以 使 用 基本 版 的 SVD (np.linalg.svd() )， 但 是 这 需要 更 多 的 时 间 和 
内 存 。 我 们 把 源 代码 一 并 给 出 ， 如 下 所 示 (e ch02/count method big.py )。 























import sys 

sys.path.append('..') 

import numpy as np 

from common.util import most similar, create co matrix, ppmi 
from dataset import ptb 
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window size = 2 
wordvec size = 100 


corpus, word to id, id to word - ptb.load data('train') 
vocab size - len(word to id) 

print('counting co-occurrence ...') 

C = create co matrix(corpus, vocab size, window size) 
print('calculating PPMI ...') 

W = ppmi(C, verbose-True) 


print('calculating SVD ...') 
try: 
# truncated SVD (fast!) 
from sklearn.utils.extmath import randomized_svd 
U, S, V = randomized svd(W, n components-wordvec size, n iter-5, 
random state-None) 
except ImportError: 
# SVD (slow) 
U, S, V = np.linalg.svd(W) 


word_vecs = U[:, :wordvec_size] 
querys = ['you', 'year', 'car', 'toyota'] 


for query in querys: 
most_similar(query, word_to_id, id_to_word, word_vecs, top=5) 





这 里 ， 为 了 执行 SVD， 我 们 使 用 了 sklearn 的 randomized_svd() 方法 。 











一 、 











[query] you 

i: 0.702039909619 
we: 0.699448543998 
've: 0.554828709147 
do: 0.534370693098 
else: 0.512044146526 


该 方法 通过 使 用 了 随机 数 的 Truncated SVD ， 仅 对 奇异 值 较 大 的 部 分 进行 
计算 ， 计 算 速 度 比 常规 的 SVD 快 。 剩 余 的 代码 和 之 前 使 用 小 语料库 时 的 代 
码 差 不 太 多 。 执 行 代码 ， 可 以 得 以 下 结 
Truncated SVD 的 情况 下 ， 每 次 的 结果 都 不 一 样 )。 


因为 使 用 了 随机 数 ， 所 以 在 使 用 
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然 语言 和 单词 的 分 布 式 表示 





[query] year 


month: 0.731561990308 
quarter: 0.658233992457 
Last: 0.622425716735 
earlier: 0.607752074689 
next: 0.601592506413 


[query] car 


Luxury: 0.620933665528 
auto: 0.615559874277 
cars: 0.569818364381 
vehicle: 0.498166879744 
corsica: 0.472616831915 


[query] toyota 


motor: 0.738666107068 
nissan: 0.677577542584 


motors: 0.64716 
honda: 0.628862 
lexus: 0.604740 


观察 结果 可 知 ， 


我 们 的 直觉 。 





3210589 
370943 
429865 





首先 ， 对 于 查询 词 you， 可 以 看 到 i、we 等 人 称 代词 
排 在 前 面 ， 这 些 都 是 在 语法 上 具有 相同 用 法 的 词 。 再 者 ， 查 询 词 year 有 
month, quarter 等 近义词 ， 查 询 词 car 有 auto, vehicle 等 近义词 。 此 外 ， 
将 toyota 作为 查询 词 时 ， 出 现 了 nissan, honda FI lexus 等 汽车 制造 商 名 或 
者 品牌 名 。 像 这 样 ， 在 含义 或 语法 上 相似 的 单词 表示 为 相近 的 向 量 ， 这 符合 











我 们 终于 成 功 地 将 单词 含义 编码 成 了 向 量 ， 真 是 可 这 可 贺 ! 使 用 语 料 


库 ， 计 算 上 下 文中 的 单词 数量 ， 
获得 好 的 单词 向 量 。 这 





密集 向 量 。 


在 本 章 的 实验 中 ， 





其 他 的 单词 也 有 这 样 
分 布 式 表示 ! 





将 它们 转化 PPMI 矩阵 ， 再 基于 SVD 降 维 








我 们 只 看 了 一 


就 是 单词 的 分 布 式 表示 ， 每 个 单词 表示 为 固定 长 度 的 








部 分 单词 的 近义词 ， 但 是 可 以 确认 许多 














的 性 质 。 期 待 使 用 更 大 的 语料库 可 以 获得 更 好 的 单词 的 
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2.5 小 结 


本 章 ， 我 们 以 自然 语言 为 对 象 ， 特 别 是 以 让 计算 机 理解 单词 含义 为 主题 

展开 了 讨论 。 为 了 达到 这 一 目标 ， 我 们 介绍 了 基于 同义词 词典 的 方法 ， 也 考 
察 了 基于 计数 的 方法 。 
使 用 基于 同义词 词典 的 方法 ， 需 要 人 工 逐 个 定义 单词 之 间 的 相关 性 。 这 
样 的 工作 非常 费力 ， 在 表现 力 上 也 存在 限制 ( 比如 ， 不 能 表示 细微 的 差别 )。 
而 基于 计数 的 方法 从 语料库 中 自动 提取 单词 含义 ,并 将 其 表示 为 向 量 。 具 体 
来 说 ， 首 先 创建 单词 的 共 现 和 矩阵， 将 其 转化 为 PPMI 矩阵 ， 再 基于 SVD EE 
维 以 提高 稳健 性 ， 最 后 获得 每 个 单词 的 分 布 式 表 示 。 另 外 ， 我们 已 经 确认 
过 ， 这 样 的 分 布 式 表 示 具 有 在 含义 或 语法 上 相似 的 单词 在 向 量 空 间 上 位 置 相 
近 的 性 质 。 

为 了 方便 处 理 语料库 的 文本 数据 ， 我 们 实现 了 几 个 预 处 理 函 数 。 具 体 来 
说 ,包括 测 量 向 量 间 相似 度 的 函数 (cos_simitarity() )、 用 于 显示 相似 单词 
的 排名 的 函数 (most_simitar() )。 这 些 函 数 在 后 面 的 革 节 中 还 会 用 到 。 
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使 用 WordNet 等 同义词 词典 ， 可 以 获取 近义词 或 测量 单词 间 的 相似 
度 等 

使 用 同义词 词典 的 方法 存在 创建 词 库 需 要 大 量 人 力 、 新 词 难 更 新 等 
问题 

目前 ， 使 用 语料库 对 单词 进行 向 量化 是 主流 方法 

近年 来 的 单词 向 量化 方法 大 多 基于 “单词 含义 由 其 周围 的 单词 构成 ” 
这 一 分 布 式 假设 

在 基于 计数 的 方法 中 ， 对 语料库 中 的 每 个 单词 周围 的 单词 的 出 现 频 
数 进行 计数 并 汇总 ( = 共 现 矩阵 ) 
通过 将 共 现 和 矩阵 转化 为 PPMI HEREJE REE, P OREAK K T E e EE 
变 为 小 的 密集 向 量 
在 单词 的 向 量 空间 中 ,含义 上 接近 的 单词 距离 上 理应 也 更 近 
































第 3 章 


word?2vec 


“没有 判断 依据 ， 就 不 要 去 推理 。 
一 一 阿 琶 柯南 ' 道 尔 《 波 希 米 亚 丑闻 》( 收录 于 《冒险 史 》) 


接着 上 一 音 ， 本 章 的 主题 仍 是 单词 的 分 布 式 表 示 。 在 上 一 章 中 ,我 们 使 
用 基于 计数 的 方法 得 到 了 单词 的 分 布 式 表 示 。 本 章 我 们 将 讨论 该 方法 的 蔡 代 





方法 ， 即 基于 推理 的 方法 。 








顾名思义 ， 基 于 推理 的 方法 使 用 了 推理 机 制 。 当 然 ， 这 里 的 推理 机 制 用 
的 是 神经 网 络 。 本 章 ， 著 名 的 word2vec 将 会 登场 。 我 们 将 花 很 多 时 间 考 察 








word2vec 的 结构 ， 并 通过 代码 实现 来 加 深 对 它 的 理解 。 


本 章 的 目标 是 实现 一 个 简单 的 word2vec。 这 个 简单 的 word2vec 会 优 
先 考虑 易 理 解 性 ， 从 而 牺牲 一 定 的 处 理 效率 。 因 此 ， 我 们 不 会 用 它 来 处 理 大 
规模 数据 集 ， 但 用 它 处 理 小 数据 集训 无 问题 。 下 一 章 我 们 会 对 这 个 简单 的 
word2vec 进行 改进 ， 从 而 完成 一 个 “真正 的 ”word2vec。 现 在 ， 让 我 们 一 














起 进入 基于 推理 的 方法 和 word2vec 的 世界 吧 ! 
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用 向 量 表示 单词 的 研究 最 近 正 在 如 火 如 茶 地 








展开 ， 
法 大 致 可 以 分 为 两 种 : 一 种 是 基于 计数 的 方法 ; 男 一 种 是 基于 推理 的 方法 。 

















其 中 比较 成 功 的 方 
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虽然 两 者 在 获得 单词 含义 的 方法 上 差别 很 大 ,但 是 两 者 的 背景 都 是 分 布 式 
假设 。 

本 节 我 们 将 指出 基于 计数 的 方法 的 问题 ， 并 从 宏观 角度 说 明 它 的 替代 方 
法 一 一 基于 推理 的 方法 的 优点 。 另 外 ， 为 了 做 好 word2vec 的 准备 工作 ,我 
们 会 看 一 个 用 神经 网 络 处 理 单词 的 例子 。 








311 基于 计数 的 方法 的 问题 

如 上 一 章 所 说 ， 基 于 计数 的 方法 根据 一 个 单词 周围 的 单词 的 出 现 频数 
来 表示 该 单词 。 具 体 来 说 ， 先 生成 所 有 单词 的 共 现 矩阵 ， 再 对 这 个 矩阵 进行 
SVD， 以 获得 密集 向 量 ( 单词 的 分 布 式 表 示 )。 但 是 ， 基 于 计数 的 方法 在 处 
理 大 规模 语料库 时 会 出 现 问 题 。 

在 现实 世界 中 ,语料库 处 理 的 单词 数量 非常 大 。 比 如 ， 据 说 英文 的 词汇 
量 超 过 100 万 个 。 如 果 词 汇 量 超过 100 万 个 ， 那 么 使 用 基于 计数 的 方法 就 需 
要 生成 一 个 100 万 x 100 万 的 庞大 矩阵 ， 但 对 如 此 庞大 的 矩阵 执行 SVD S 
然 是 不 现实 的 。 


XPT—nxnBBE,SVDBS&ZERO(n?, ， 这 表示 计算 量 与 
nn 的 立方 成 比例 增长 。 如 此 大 的 计算 成 本 ， 即 便 是 超级 计算 机 也 无 
法 胜任 。 实 际 上 ， 利 用 近似 方法 和 稀疏 矩阵 的 性 质 ， 可 以 在 一 定 程 


度 上 提高 处 理 速度 ， 但 还 是 需要 大 量 的 计算 资源 和 时 间 。 








































































































基于 计数 的 方法 使 用 整个 语料库 的 统计 数据 ( 共 现 和 矩阵 和 了 PPMI 等 )， 
通过 一 次 处 理 (SVD 等 ) 获得 单词 的 分 布 式 表示 。 而 基于 推理 的 方法 使 用 
神经 网 络 ， 通 常 在 mini-batch 数据 上 进行 学 习 。 这 意味 着 神经 网 络 一 次 只 
需要 看 一 部 分 学 习 数 据 ( mini-batch )， 并 反复 更 新 权重 。 这 种 学 习 机 制 上 
的 差异 如 图 3-1 所 示 。 
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基于 计数 的 方法 ( batch 学 习 ) 基于 推理 的 方法 ( mini-batch 学 习 ) 
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图 3-1 基于 计数 的 方法 和 基于 推理 的 方法 的 比较 


如 图 3-1 所 示 ， 基 于 计数 的 方法 一 次 性 处 理 全 部 学 习 数 据 ; 反之 ， 基 于 
推理 的 方法 使 用 部 分 学 习 数 据 逐 步 学 习 。 这 意味 着 ， 在 词汇 量 很 大 的 语料库 
H, BE SVD 等 的 计算 量 太 大 导致 计算 机 难以 处 理 ， 神 经 网 络 也 可 以 在 部 
分 数据 上 学 习 。 并 且 ， 神 经 网 络 的 学 习 可 以 使 用 多 台 机 器 、 多 个 GPU 并 行 
执行 ， 从 而 加 速 整个 学 习 过 程 。 在 这 方面 ， 基 于 推理 的 方法 更 有 优势 。 

基于 推理 的 方法 和 基于 计数 的 方法 相 比 ， 还 有 一 些 其 他 的 优点 。 关 于 这 
一 点 ， 在 详细 说 明基 于 推理 的 方法 ( 特别 是 word2vec ) 之 后 ， 我 们 会 在 3.5.3 
THREE. 
































3.1.2 ”基于 推理 的 方法 的 概要 


基于 推理 的 方法 的 主要 操作 是 “推理 ”。 如 图 3-2 所 示 ， 当 给 出 周围 的 
单词 (上下文 ) 时， 预测 “?” 处 会 出 现 什 么 单词 ， 这 就 是 推理 。 














you| ? |goodbye and i say hello. 
NA NL 











图 3-2 ”基于 两 边 的 单词 (上 下 文 )， 预测?” 处 出 现 什么 单词 


解 开 图 3-2 中 的 推理 问题 并 学 习 规律 ， 就 是 基于 推理 的 方法 的 主要 任 
务 。 通 过 反复 求解 这 些 推理 问题 ， 可 以 学 习 到 单词 的 出 现 模 式 。 从 “模型 视 
角 ” 出 发 ， 这 个 推理 问题 如 图 3-3 所 示 。 











96 ”| 第 3 章 word2vec 




















概率 分 布 
P 模型 —- 
| 8000 Dye EH.Lzn 
< ES gm 
上 下 文 SSSR E 
o 
g 
5 








图 3-3 ”基于 推理 的 方法 : 输入 上 下 文 ， 模 型 输出 各 个 单词 的 出 现 概率 





如 图 3-3 所 示 ， 基 于 推理 的 方法 引入 了 某 种 模型 ， 我 们 将 神经 网 络 用 于 
此 模型 。 这 个 模型 接收 上 下 文 信息 作为 输入 ， 并 输出 〈 可 能 出 现 的 ) 各 个 单 








词 的 出 现 概率 。 在 这 样 的 框架 中 ， 使 用 语料库 来 学 习 模 型 ， 使 之 能 做 出 正确 














的 预测 。 男 外 ， 作 为 模型 学 习 的 产物 ， 我 们 得 到 了 单词 的 分 布 式 表示 。 这 就 











是 基于 推理 的 方法 的 全 貌 。 
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分 布 






































的 方法 











将 这 














基于 推理 的 方法 和 基于 计数 的 方法 一 样 ， 也 基于 分 布 了 
式 假设 假设 “单词 含义 由 其 周围 的 单词 构成 。 基 于 推 




















假设 归结 为 了 上 面 的 预测 问题 。 由 此 可 见 ， 不 管 是 哪 种 方法 ， 如 






































何 对 基于 分 布 式 假设 的 “单词 共 现 ” 建 模 都 是 最 重要 的 




















3.1.3. ”神经 网 络 中 单词 的 处 理 方法 





>Ja 
主题 。 


从 现在 开始 ， 我 们 将 使 用 神经 网 络 来 处 理 单词 。 但 是 ， 神 经 网 络 无 法 直 
接 处 理 you 或 say 这 样 的 单词 ， 要 用 神经 网 络 处 理 单词 ， 需 要 先 将 单词 转化 
为 固定 长 度 的 向 量 。 对 此 ， 一 种 方式 是 将 单词 转换 为 one-hot 表示 (one-hot 











向 量 )。 在 one-hot 表示 中 ， 只 有 一 个 元 素 是 1， 其 他 元 素 都 是 0 


o 











我 们 来 看 一 个 one-hot 表示 的 例子 。 和 上 一 章 一 样 ， 我 们 





] "You 


say 


goodbye and I say hello.” 这 个 一 句 话 的 语料库 来 说 明 。 在 这 个 语料库 中 ， 





一 共有 T 个 单词 ( "you" "say" "goodbye" “and” r “hello” 
各 个 单词 可 以 转化 为 图 3-4 所 示 的 one-hot 表示 。 


<” Je IH 





CHF, 




















3.1 ”基于 推理 的 方法 和 神经 网 络 | 9 



































单词 单词 ID one-hot 表 示 
you 0 (1, 0, 0, 0, 0, 0, 0) 
goodbye 2 (0, 0, 1,0, 0, 0, 0) 






































3-4 单词 、 单 词 ID 以 及 它们 的 one-hot 表示 





如 图 3-4 所 示 ， 单 词 可 以 表示 为 文本 、 单 词 ID 和 one-hot 表示 。 此 时 ， 
要 将 单词 转化 为 one-hot 表示 ， 就 需要 准备 元 素 个 数 与 词汇 个 数 相 等 的 向 
量 ， 并 将 单词 ID 对 应 的 元 素 设 为 1， 其 他 元 素 设 为 0。 像 这 样 ， 只 要 将 单 
词 转化 为 固定 长 度 的 向 量 ， 神 经 网 络 的 输入 层 的 神经 元 个 数 就 可 以 固定 下 来 
(图 3-5 )。 























you say goodbye 

(1,0, 0, 0, 0, 0, 0) (0, 1, 0, 0,0, 0, 0) (0,0, 1, 0,0, 0, 0) 
yo .|() e O O 
sy O O e Q 
goodbye O O O © 
and |C) O O O 
iO s Q O 
hello O O O O 
O OQ O O 

输入 层 














3-5 ”输入 层 的 神经 元 : 各 个 神经 元 对 应 于 各 个 单词 。 图 中 神经 元 为 1 的 地 方 用 黑色 绘制 ， 
为 0 的 地 方 用 白色 绘制 
如 图 3-5 所 示 ， 输 入 层 由 7 了 个 神经 元 表示 ， 分 别 对 应 于 7 个 单词 (第 1 
个 神经 元 对 应 于 you, 58 2 个 神经 元 对 应 于 say )。 
现在 事情 变 得 很 简单 了 。 因 为 只 要 将 单词 表示 为 向 量 ， 这 些 向 量 就 可 以 
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由 构成 神经 网 络 的 各 种 “ 层 ” 来 处 理 。 比 如， 对 于 one-hot 表 示 的 某 个 单词 ， 
使 用 全 连接 层 对 其 进行 变换 的 情况 如 图 3-6 所 示 。 











you 
say 
goodbye | 
and 
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hello 
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图 3-6 ”基于 神经 网 络 的 全 连接 层 的 变换 : 输入 层 的 各 个 神经 元 分 别 对 应 于 7 个 单词 (中 间 
层 的 神经 元 暂 为 3 个 ) 











如 图 3-6 所 示 ， 全 连接 层 通 过 箭头 连接 所 有 节点 。 这 些 箭头 拥有 权重 
( 参数 )， 它 们 和 输入 层 神经 元 的 加 权 和 成 为 中 间 层 的 神经 元 。 另 外 ， 本 章 使 
用 的 全 连接 层 将 省 略 偏 置 ( 这 是 为 了 配合 后 文 对 word2vec 的 说 明 )。 



































































































































































































































没有 偏 置 的 全 连接 层 相当 于 在 计算 矩阵 乘积 。 在 很 多 深度 学 习 的 
框架 中 ， 在 生成 全 连接 层 时 ， 都 可 以 选择 不 使 用 mE. 。 在 本 书 中 ， 
使 用 偏 置 的 全 连接 层 相 当 于 MatMul 层 (该 层 已 经 在 第 1 章 中 
实现 )。 





在 图 3-6 中 ， 神 经 元 之 间 的 连接 是 用 箭头 表示 的 。 之 后 ， 为 了 明确 地 显 
示 权 重 ， 我 们 将 使 用 图 3-7 所 示 的 方法 。 
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you (C) 
say CJ 
goodbye EN 
and 6) | ! 
z (7x3) 
i ( 
hello bo 0) 
CN 
MJ 
输入 层 














图 3-7 基于 全 连接 层 的 变换 的 简化 图 示 : 将 全 连接 层 的 权重 表示 为 一 个 7 x 3 形状 的 W 
和 矩阵 





现在 ， 我 们 看 一 下 代码 。 这 里 的 全 连接 层 变 换 可 以 写成 如 下 的 Python 
代码 。 


import numpy as np 


c = np.array([[1, 0, 0, 0, 0, 0, 0]])  £ 输入 





W = np.random.randn(7, 3) # 权重 
h = np.dot(c, W) # 中 间 节 点 
print(h) 


* [[-0.70012195 0.25204755 -0.79774592]] 


段 代 码 将 单词 ID 为 0 的 单词 表示 为 了 one-hot 表示 ， 并 用 全 连接 层 
—À TUA. ERRI, DÉRERA MERRET PMH 
NumPy 的 np.dot() 来 实现 ( 省略 偏 置 )。 























这 里 , 输入 数据 (变量 c) 的 维 数 (ndim) 是 2。 这 是 考虑 了 mini-batch 
处 理 ， 将 各 个 数据 保存 在 了 第 1 维 (0 维 度 ) 中 。 














希望 读者 注意 一 下 c 和 Ww 进行 矩阵 乘积 计算 的 地 方 。 此 人 处，c 是 one- 
hot 表示 ， 单 词 ID 对 应 的 元 素 是 1， 其 他 地 方 都 是 0。 因 此 ， 如 图 3-8 所 示 ， 
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上 述 代码 中 的 < 和 w 的 矩阵 乘积 相当 于 “提取 ”权重 的 对 应 行 向 量 。 














1000000. 








c W 三 h 


3-8 TE E TX cU WAER, XHINLGLERBS T [9] 8 8 e Bx (DCGRBU S T 7088 
的 大 小 用 灰 度 表示 ) 











这 里 ， 仅 为 了 提取 权重 的 行 向 量 而 进行 矩阵 乘积 计算 好 像 不 是 很 有 效 
率 。 关 于 这 一 点 ， 我 们 将 在 4.1 节 进 行 改 进 。 另 外 ， 上 述 代码 的 功能 也 可 以 
使 用 第 1 章 中 实现 的 MatMul 层 完 成 ， 如 下 所 示 。 


import sys 

sys.path.append('..') 

import numpy as np 

from common.layers import MatMul 


c = np.array([[1, 0, 0, 0, 0, 0, 0]]) 

W = np.random.randn(7, 3) 

layer = MatMul(W) 

h = layer.forward(c) 

print(h) 

# [[-0.70012195 0.25204755 -0.79774592]] 


这 里 ， 我 们 先导 入 了 common 目录 下 的 MatMul 层 。 之 后 ， 将 MatMul 
层 的 权重 设 为 了 WwW， 并 使 用 forward() 方法 执行 正 向 传播 。 
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3.0 简单 的 word2vec 

















上 一 节 我 们 学 习 了 基于 推理 的 方法 ， 并 基于 代码 讨论 了 神经 网 络 中 单词 
的 处 理 方法 ， 至 此 准备 工作 就 完成 了 ， 现 在 是 时 候 实现 word2vec 了 。 

我 们 要 做 的 事情 是 将 神经 网 络 僚 入 到 图 3-3 所 示 的 模型 中 。 这 里 ， 我 们 
使 用 由 原版 word2vec 提出 的 名 为 continuous bag-of-words ( CBOW ) 的 
模型 作为 神经 网 络 。 


word2vec 一 词 最 初 用 来 指 程 序 或 者 工具 ， 但 是 随 着 该 词 的 流行 ， 
在 某 些 语 境 下 ， 也 指 神经 网 络 的 模型 。 正 确 地 说 ，CBOW 模型 
和 skip-gram 模 型 是 word2vec 中 使 用 的 两 个 神经 网 络 。 本 节 我 


们 将 主要 讨论 CBOW 模型 。 关 于 这 两 个 模型 的 差异 ， 我 们 将 在 


3.5.2 节 详细 介绍 。 






















































































































































































3.2.1 CBOW 模 型 的 推理 








CBOW 模型 是 根据 上 下 文 预测 目标 词 的 神经 网 络 (“目标 词 ” 是 指 中 间 
的 单词 ， 它 周围 的 单词 是 “上 下 文 ”)。 通 过 训练 这 个 CBOW 模型 ,使 其 能 
尽 可 能 地 进行 正确 的 预测 ， 我 们 可 以 获得 单词 的 分 布 式 表示 。 

CBOW 模型 的 输入 是 上 下 文 。 这 个 上 下 文 用 ['you'，'goodbye'] 这 样 
的 单词 列表 表示 。 我 们 将 其 转换 为 one-hot 表示 ， 以 便 CBOW 模型 可 以 进 
行 处 理 。 在 此 基础 上 ，CBOW 模型 的 网 络 可 以 画 成 图 3-9 这 样 。 

图 3-9 是 CBOW 模型 的 网 络 。 它 有 两 个 输入 层 ， 经 过 中 间 层 到 达 输 出 
层 。 这 里 ， 从 输入 层 到 中 间 层 的 变换 由 相同 的 全 连接 层 (权重 为 Win ) 完 成 ， 
从 中 间 层 到 输出 层 神经 元 的 变换 由 另 一 个 全 连接 层 ( 权重 为 Wout) 完成 。 


这 里 ， 因 为 我 们 对 上 下 文 仅 考虑 两 个 单词 ， 所 以 输入 层 有 两 个 。 
如 果 对 上 下 文 考虑 入 个 单词 ， 则 输入 层 会 有 NN 个 。 














































































































102 ”| 第 3 章 word2vec 












































you O 
say O 
goodbye O 
and O 
i O W. C ) you 
hello Q a O say 
C ) goodbye 
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图 3-9 CBOW 模型 的 网 络 结构 


现在 ， 我 们 注意 一 下 图 3-9 的 中 间 层 。 此 时 ， 中 间 层 的 神经 元 是 各 个 输 
入 层 经 全 连接 层 变 换 后 得 到 的 值 的 “平均 ”。 就 上 面 的 例子 而 言 ， 经 全 连接 
层 变换 后 , 第 1 个 输入 层 转化 为 h1， 第 2 个 输入 层 转 化 为 h2， 那 么 中 间 层 
的 神经 元 是 (hi 十 ha), 

最 后 是 图 3-9 中 的 输出 层 ， 这 个 输出 层 有 7 个 神经 元 。 这 里 重要 的 是 ， 
这 些 神 经 元 对 应 于 各 个 单词 。 输 出 层 的 神经 元 是 各 个 单词 的 得 分 ， 它 的 值 越 
大 ， 说 明 对 应 单词 的 出 现 概率 就 越 高 。 得 分 是 指 在 被 解释 为 概率 之 前 的 值 ， 
对 这 些 得 分 应 用 Softmax 函数 ， 就 可 以 得 到 概率 。 
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3 








有 时 将 得 分 经 过 Softmax 层 之 后 的 神经 元 称 为 输出 





























门将 输出 得 分 的 节点 称 为 输出 层 。 











如 图 3-9 所 示 ， 从 输入 层 到 中 间 层 的 变换 由 全 连接 层 ( 权重 





Bo xE, 


8E 








H XE Win ) 完 








成 。 此 时 ， 全 连接 层 的 权重 Win 是 一 个 7x 3 的 矩阵 。 提 前 剧 透 一 下 ， 这 个 
权重 就 是 我 们 要 的 单词 的 分 布 式 表 示 ， 如 图 3-10 所 示 。 








you 
say 
goodbye 
and 
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hello 





W 


(7x3) 











图 3-10 权重 的 各 行 对 应 各 个 单词 的 分 布 式 表示 


如 图 3-10 所 示 ， 权 重 Wis 的 各 行 保存 着 各 个 单词 的 分 布 式 表 示 。 通 过 
反复 学 习 ， 不断 更 新 各 个 单词 的 分 布 式 表示 ， 以 正确 地 从 上 下 文 预测 出 
ea 令 人 惊讶 的 是 ， 如 此 获得 的 向 量 很 好 地 对 单词 含义 进行 了 编 





这 就 是 word2vec 的 全 貌 。 



































中 间 层 的 神经 元 数量 比 输入 层 少 这 一 点 很 重要 。 中 间 
























































层 被 写 入 了 我 们 人 类 无 法 解读 的 代码 ， 这 相当 于 “ 

















单词 所 需 的 信息 压缩 保存 ， 从 而 产生 密集 的 向 量 表示 。 
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从 中 间 层 的 信息 获得 期 


望 结果 的 过 程 则 称 为 “解码 ”。 这 一 









































编码 的 信息 复原 为 我 们 











可 以 理解 的 形式 。 


编码 ” 工作 。 








Ej > 








过 程 将 匀 





区 
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到 目前 为 止 ， 我 们 从 神经 元 视角 图 示 了 CBOW 模型 。 下 面 ， 我 们 从 层 


视角 图 示 CBOW 模型 。 这 样 一 来 ， 这 个 神经 网 络 的 结构 如 图 3-11 所 示 。 























Win 


(0,0, 1, 0,0, 0,0) ———> MatMul 


Wi 


(1,0, 0, 0, 0, 0,0) —— ——» MatMul 、 


> MatMul 


v 
di 
过 








Wout 


N 
> 








图 3-11 层 视角 下 的 CBOW 模型 的 网 络 结构 : MatMul 层 中 使 用 的 权重 (Wisn、Wout) 
画 在 各 自 的 层 中 


如 图 3-11 所 示 ，CBOW 模型 一 玫 





F 始 有 两 个 MatMul 层 ， 这 两 个 层 的 输 


出 被 加 在 一 起 。 然 后 ， 对 这 个 相 加 后 得 到 的 值 乘 以 0.5 求 平均 ， 可 以 得 到 中 
间 层 的 神经 元 。 最 后 ， 将 另 一 个 MatMul 层 应 用 于 中 间 层 的 神经 元 ， 输 出 得 


分 。 























不 使 
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连接 











层 的 处 至 


由 MatMul 

















^R 


内 部 计算 和 矩阵 乘积 。 








层 的 正 向 传播 





代理 。 
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参考 图 3-11， 我 们 来 实现 CBOW 模型 的 推理 ( 即 求 得 分 的 过 程 )， 具 
体 实现 如 下 所 示 (= ch03/cbow predict.py )。 





import sys 

sys.path.append('..') 

import numpy as np 

from common.layers import MatMul 


3: 样本 的 上 下 文 数据 
c0 = np.array([[1, 0, 0, 0, 0, 0, 0]]) 
cl = np.array([[0, 0, 1, 0, 0, 0, 0]]) 





3: 权重 的 初始 值 
W in = np.random.randn(7, 3) 
W out = np.random.randn(3, 7) 





# 生成 层 
in layer0 = MatMul(W in) 
in layerl - MatMul(W in) 
out layer - MatMul(W out) 





# 正 向 传播 

ho = in layer0.forward(c0) 
hl = in Layerl.forward(cl) 
h 2 0.5 * (hgo+hl) 

S = out layer.forward(h) 


print(s) 
# [[ 0.30916255 40.45060817 -0.77308656 420.22054131 20.15037278 
# -0.93659277 -0.59612048]] 


这 里 ， 我 们 首先 将 必要 的 权重 (W inl Ww out) 初始 化 。 然 后 ， 生 成 与 
上 下 文 单词 数量 等 量 ( 这 里 是 两 个 ) 的 处 理 输入 层 的 MatMul 层 ， 输 出 侧 仅 
生成 一 个 MatMul 层 。 需 要 注意 的 是 ， 输 入 侧 的 MatMul 层 共 享 权重 w_in。 

之 后 ， 输 入 侧 的 MatMul 层 (in layer 和 in layer1) 调用 forward() 
方法 ， 计 算 中 间 数 据 ， 并 通过 输出 侧 的 MatMul 层 Cout tayer) 计算 各 个 
单词 的 得 分 。 
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以 上 就 是 CBOW 模型 的 推 











E 理 过 程 。 这 里 我 们 见 到 的 CBOW 模型 是 没 


rupi 数 的 简单 的 网 络 结构 。 除 了 多 个 输入 层 共享 权重 外 ， 并 没有 什 











么 难 








LASS 


322. CBOW 模 型 的 学 习 





。 接 下 来 ,我 们 继续 看 一 下 CBOW 模型 的 学 习 。 



























































到 目前 为 止 ， 我们 介绍 的 CBOW 模 型 在 输出 层 输出 了 各 个 单词 的 得 分 
通过 对 这 些 得 分 应 用 Softmax 函数 ， 可 以 获得 概率 ( 图 3-12 )。 这 个 概率 表 
示 哪 个 单词 会 出 现在 给 定 的 上 下 文 (周围 单词 ) 中 间 。 

yu [1 

sy |0 

goodbye 0 
and 0 m m E 
:0 Wa O e. 0 
hello 0 (7x3) e e e say 1 
0 B @® : C goodbye 0 
ERES a — | Softma — : 
= - Wout ®© eA e and 0 
you 0 Q (3x7) C ) 2 i 0 
say 0 Wi x E € ) © ) hello 0 
goodbye 1 (7x3) = je LÀ | 0 
posit i Ate 概率 正确 解 标签 
i 0 (得 分 ) 
hello 0 
0 
输入 层 
(上 下 文 ) 














3-12 CBOW 模型 的 示例 (节点 值 的 大 小 用 灰 度 表示 ) 


在 图 
经 网 络 应 








该 预测 出 的 单词 

那么 在 表示 概率 的 神经 元 
CBOW 模型 的 学 习 就 是 调整 权重 E 

Win (确切 地 说 是 Win 和 Wou 两 者 ) FAPA 


) 是 say。 








3-12 所 示 的 例子 中 ， 上 下 文 是 you 和 goodbye, 
这 时 ， 如 果 网 络 具 有 “良好 的 权重 ”， 
对 应 正确 解 的 神经 元 的 得 分 应 该 更 高 。 




















以 使 预测 准 硬 








1E 8 














。 其 结果 是 ， 


解 标签 


权重 


( 神 





二 


含 单词 出 现 模式 的 向 量 。 根 
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据 过 去 的 实验 ，CBOW 模型 ( 和 skip-gram 模型 ) 得 到 的 单词 的 分 布 式 表 
示 ， 特 别 是 使 用 维基 百科 等 大 规模 语料库 学 习 到 的 单词 的 分 布 式 表示 ， 在 单 
词 的 含义 和 语法 上 符合 我 们 直觉 的 案例 有 很 多 。 















































CBOW 模型 只 是 学 习 语料库 中 单词 的 出 现 模式 。 如 果 语 料 库 不 一 样 ， 
学 习 到 的 单词 的 分 布 式 表示 也 不 一 样 。 比 如 ， 只 使 用 体育 ”相关 
的 文章 得 到 的 单词 的 分 布 式 表 示 ， 和 只 使 用 音乐 " 相关 的 文章 得 
到 的 单词 的 分 布 式 表示 将 有 很 大 不 同 。 


















































































































































现在 ， 我 们 来 考虑 一 下 上 述 神经 网 络 的 学 习 。 其 实 很 简单 ， 这 里 我 们 处 
理 的 模型 是 一 个 进行 多 类 别 分 类 的 神经 网 络 。 因 此 ， 对 其 进行 学 习 只 是 使 用 
一 下 Softmax KAZ SUBE 22. Tio. fH Softmax 函数 将 得 分 转化 为 
概率 ， 再 求 这 些 概 率 和 监督 标签 之 间 的 交叉 炉 误 差 ， 并 将 其 作为 损失 进行 学 
习 ， 这 一 过 程 可 以 用 图 3-13 表示 。 





















































(1, 0,0, 0, 0, 0, 0) 一 一 > MatMul (0,1, 0,0,0,0,0)— 
Win 
` * Cros 
+ > X > MatMul —>» Softmax > Entropy} 一 > 损失 
A 页 
205 | 
Wout 
(0, 0, 1, 0, 0, 0,0) > MatMul 
Win 











3-13 ”学 习 时 的 CBOW 模型 的 网 络 结构 








如 图 3-13 所 示 ， 只 需 向 上 一 节 介 绍 的 进行 推理 的 CBOW 模型 加 上 
Softmax 层 和 Cross Entropy Error 层 ， 就 可 以 得 到 损失 。 这 就 是 CBOW 
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模型 计算 损失 的 流程 ， 对 应 于 神经 网 络 的 正 向 传播 。 

虽然 图 3-13 中 使 用 了 Softmax 层 和 Cross Entropy Error 层 ， 但 是 我 
们 将 这 两 个 层 实 现 为 了 一 个 Softmax with Loss 层 。 因 此 ， 我 们 接 下 来 要 实 
现 的 网 络 实际 上 如 图 3-14 所 示 。 











(1,0,0,0,0,0,0) 一 —». MatMul | (0, 1,0, 0,0,0,0) 一 

















W in 
» 
A= : Softmax 
+ | X j MatMul > with > 损失 
4 X Loss 
05 / 
V y out 
(0.0, 1, 0, 0,0, 0) » MatMul 

W in 

















图 3-14 将 Softmax 层 和 Cross Entropy Error z£t—7J Softmax with Loss 层 


3.2.3 ”word2vec 的 权重 和 分 布 式 表示 


如 前 所 述 ，word2vec 中 使 用 的 网 络 有 两 个 权重 ， 分 别 是 输入 侧 的 全 连 
接 层 的 权重 ( Win ) 和 输出 侧 的 全 连接 层 的 权重 ( Wout )。 一 般 而 言 ， 输 入 
侧 的 权重 Wis 的 每 一 行 对 应 于 各 个 单词 的 分 布 式 表示 。 另 外 ， 输 出 侧 的 权 
E Wou 也 同样 保存 了 对 单词 含义 进行 了 编码 的 向 量 。 只 是 ， 如 图 3-15 所 
示 ， 答 出 侧 的 权重 在 列 方向 上 保存 了 各 个 单词 的 分 布 式 表示 。 
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o 
Bo Š 
wu 00 BELA 
say OE ) 
goodbye © e B o 5 e 
d [ y » a R c 4m a 
B «i eoo 00 
Mi PII 
hello e mM E 
@ 
Win Wout 
(7x3) (3x7) 











图 3-15 


输入 侧 和 输出 侧 的 权重 都 可 以 被 视 为 单词 的 分 布 式 表示 





那么 ， 我 们 最 终 应 该 使 用 哪个 权重 作为 单词 的 分 布 式 表 示 呢 ? 这 里 有 三 
个 选项 。 


A. 只 使 用 输入 侧 的 权重 


B. 
C. 


只 使 用 输出 侧 的 权重 
同时 使 用 两 个 权重 





方案 A 和 方案 B 只 使 用 其 中 一 个 权重 。 而 在 采用 方案 C 的 情况 下 ， 根 
据 如 何 组 合 这 两 个 权重 ， 存 在 多 种 方式 ， 其 中 一 个 方式 就 是 简单 地 将 这 两 个 
权重 相 加 。 


3 














è word2vec ( 特别 是 skip-gram 模型 ) 而 言 ， 最 受 欢迎 的 是 方案 A. 


许多 研究 中 也 都 仅 使 用 输入 侧 的 权重 Win 作为 最 终 的 单词 的 分 布 式 表 示 。 
遵循 这 一 思路 ， 我 们 也 使 用 Was 作为 单词 的 分 布 式 表示 。 


























文献 [38] 通过 实验 证 明了 word2vec 的 skip-gram 模型 中 Win 的 有 
效 性 。 另 外 ， 在 与 word2vec 相 似 的 GloVeE71 方 法 中 ， 通 过 将 两 个 
权重 相 加 ， 也 获得 了 良好 的 结果 。 
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3.3 ”学习 数据 的 准备 


在 开始 word2vec 的 学 习 之 前 ， 我 们 先 来 准备 学 习 用 的 数据 。 这 里 我 们 
仍 以 “You say goodbye and I say hello.” 这 个 只 有 一 句 话 的 语料库 为 例 进 
行 说 明 。 


3.3.1 上 下 文 和 目标 词 


word2vec 中 使 用 的 神经 网 络 的 输入 是 上 下 文 ， 它 的 正确 解 标签 是 被 这 
些 上 下 文 包围 在 中 间 的 单词 ， 即 目标 词 。 也 就 是 说 ， 我 们 要 做 的 事情 是 ， 当 
向 神经 网 络 输入 上 下 文 时 ， 使 目标 词 出 现 的 概率 高 ( 为 了 达成 这 一 目标 而 进 
行 学 习 ). 

下 面 我 们 就 从 语料库 生成 上 下 文 和 目标 词 ， 如 图 3-16 所 示 。 























Corpus contexts target 
you say| goodbye and i say hello . f you, goodbye | i say | 
you say (goodbye and i say hello . say, and goodbye 
you say goodbye|[and i say hello . goodbye, i and 
you say goodbye and | say hello . and, say i 
you say goodbye and i [say| hello . i, hello say 
you say goodbye and i say [bello]. | say, . | hello j 

















3-16 ”从 语料库 生成 上 下 文 和 目标 词 











在 图 3-16 中 ， 将 语料库 中 的 目标 单词 作为 目标 词 ， 将 其 周围 的 单词 作 
为 上 下 文 提取 出 来 。 我 们 对 语料库 中 的 所 有 单词 都 执行 该 操作 C 两 端的 单词 
除外 )， 可 以 得 到 图 3-16 右 侧 的 contexts ( 上 下 文 ) 和 target (目标 词 )。 
contexts 的 各 行 成 为 神经 网 络 的 输入 ，target 的 各 行 成 为 正确 解 标签 ( 要 预 
测 出 的 单词 )。 另 外 ,在 各 笔 样本 数据 中 ， 上 下 文 有 多 个 单词 (这 个 例子 中 有 
两 个 )， 而 目标 词 则 只 有 一 个 ， 因 此 只 有 上 下 文 写成 了 复数 形式 contexts, 
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现在 ， 我 们 来 实现 从 语料库 生成 上 下 文 和 目标 词 的 函数 。 在 此 之 前 ， 我 
们 先 复习 一 下 上 一 章 的 内 容 。 首 先 ， 将 语料库 的 文本 转化 成 单词 ID。 这 需 
要 使 用 第 2 章 实现 的 preprocess() 函数 。 








import sys 
sys.path.append('..') 


from common.util import preprocess 


text = 'You say goodbye and I say hello.' 

corpus, word to id, id to word - preprocess(text) 
print(corpus) 

* [0123415906] 


print(id to word) 

# (0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: 

— E '} 

然后 ， 从 单词 ID 列表 corpus 生成 contexts 和 target。 上 有 具 体 来 说 ， 如 图 
3-17 所 示 ， 实 现 一 个 当 给 定 corpus 时 返回 contexts 和 target 的 函数 。 





























corpus contexts target 
[[0 2 [1 
13 2 
[1234156 | — 24 3 
31 4 
45 1 
1 6]] 5] 
AR: (8,) 形状 : (6, 2) | | 形状: (6,) 














3-17 从 单词 ID 列表 corpus 生成 contexts 和 target 的 例子 (上 下 文 的 窗口 大 小 为 1) 





如 图 3-17 所 示 ，contexts 是 二 维 数组 。 此 时 ，contexts 的 第 0 维 保 
存 的 是 各 个 上 下 文 数据 。 有 具体 来 说 ，contexts[9] 保存 的 是 第 0 个 上 下 文 ， 








112 ”| 第 3 章 word2vec 








context[1] 保存 的 是 第 1 个 上 下 文 …… 同样 地 ， 就 目标 词 而 言 ，target[9] 
保存 的 是 第 0 个 目标 词 ，target[1] 保存 的 是 第 1 个 目标 词 …… 
现在 ,我 们 来 实现 这 个 生成 上 下 文 和 目标 词 的 函数 ， 这 里 将 其 


create contexts target(corpus, window size) (= common/util.py )。 




















c 
一 


def create contexts target(corpus, window size-1): 
target = corpus[window size:-window size] 
contexts = [] 


for idx in range(window size, len(corpus)-window size): 


for t in range(-window size, window size + 1) 
if t = 0: 
continue 
cs.append(corpus[idx + t]) 
contexts.append(cs) 


return np.array(contexts), np.array(target) 


这 个 函数 有 两 个 参数 : 一 个 是 单词 ID 列表 (corpus) 另 一 个 是 上 下 文 
的 窗口 大 小 (window size )。 另 外 ， 函 数 返 回 的 是 NumPy 多 维 数组 格式 的 
上 下 文 和 目标 词 。 现 在 ， 我 们 来 实际 使 用 一 下 这 个 函数 ， 接 着 刚才 的 实现 ， 
代码 如 下 所 示 。 














contexts, target = create contexts target(corpus, window size-1) 


print(contexts) 
# [[0 2] 
* [13] 
[2 4] 
[3 1] 
[4 5] 
[1 6]] 


+ dk E Gk 


print(target) 
[123415] 
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这 样 就 从 语料库 生成 了 上 下 文 和 目标 词 ， 后 面 只 需 将 它们 赋 给 CBOW 
模型 即 可 。 不 过 ， 因 为 这 些 上 下 文 和 目标 词 的 元 素 还 是 单词 ID ， 所 以 还 需 
要 将 它们 转化 为 one-hot 表示 。 




















3.3.2 ”转化 为 one-hot 表 示 
下 面 ， 我 们 将 上 下 文 和 目标 词 转化 为 one-hot 表示 ， 如 图 3-18 所 示 。 








contexts target contexts target contexts target 
you, goodbye Say 0 2] 1 [[[L 0 0 0 0 0 0] [[0 1 0 0 0 0 0] 
say, and goodbye 13 2 | 0010000] [0010000] 
5e ; 单词 ID 3 one-hot 表示 0100000 0001000 
goodbye, i and 24 3 0001000] [ ] 
and, say i [3 1] A [[0 0 1 0 0 0 0] [00 00 10 0) 
i, hello say 4 5] 1 0000100] [0 100 0 0 0] 
say, . hello [1 0]] 5] [l0 0 0 1 0 0 0 [0 0.0 0 0 1 0] 
0100000] 
形状 : (6, 2) FER: (6,)) LO DOO 形状 : (6, 7)] 
00000190] 
[0 1 0 0 0 0 0] 
000000 1]] 





| 形状 : (6,2,7) 











3-18 ”将 上 下 文 和 目标 词 转化 为 one-hot 表示 的 例子 








如 图 3-18 所 示 ， 上 下 文 和 目标 词 从 单词 ID 转化 为 了 one-hot 表示 。 
这 里 需要 注意 各 个 多 维 数组 的 形状 。 在 上 面 的 例子 中 ， 使 用 单词 ID 时 的 
contexts 的 形状 是 (6,2) ， 将 其 转化 为 one-hot 表示 后 ， 形 状 变 为 (6,2,7)。 

本 书 提供 了 convert_one_hot() 函数 以 将 单词 ID 转化 为 one-hot 表示 。 
这 个 函数 的 实现 不 再 说 明 ， 内 容 很 简单 ， 代 码 在 common/util.py 中 。 该 函数 
的 参数 是 单词 ID 列表 和 词汇 个 数 。 我 们 再 把 到 目前 为 止 的 数据 预 处 理 总 结 
一 下 ， 如 下 所 示 。 





import sys 
sys.path.append('..') 


from common.util import preprocess, create contexts target, 
— convert one hot 


text - 'You say goodbye and I say hello.' 
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corpus, word to id, id to word = preprocess(text) 
contexts, target - create contexts target(corpus, window size-1) 


vocab size - len(word to id) 
target - convert one hot(target, vocab size) 
contexts - convert one hot(contexts, vocab size) 


至 此 ， 学 习 数 据 的 准备 就 完成 了 ， 下 面 我 们 来 讨论 最 重要 的 CBOW B 
型 的 实现 。 





34 CBOW 模 型 的 实现 


现在 ， 我 们 来 实现 CBOW 模型 。 这 里 要 实现 的 神经 网 络 如 图 3-19 所 示 。 





(1, 0,0, 0, 0, 0, 0) MatMul (0, 1, 0, 0, 0, 0, 0) — 


* Softmax 
F )——( X |— MatMul » with » 损失 
Loss 











ERU, Wou 


(0,0, 1, 0, 0, 0, 0) ————»| MatMul 7 





Wis 








图 3-19 CBOW 模型 的 网 络 结构 
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我 们 将 图 3-19 中 的 神经 网 络 实现 为 SinplecBow 类 ( 下 一 章 将 实现 对 其 


进行 了 改进 的 cBow 类 )。 首 先 ， 让 我 们 看 一 下 SimpteCBOw 类 的 初始 化 方法 
( = ch03/simple cbow.py )。 














import sys 
sys.path.append('..') 
import numpy as np 


from common.layers import MatMul, SoftmaxWithLoss 


class SimpleCBOW: 
def | init (self, vocab size, hidden size): 


V, H = vocab size, hidden size 


3: 初始 化 权重 
W in = 0.01 * np.random.randn(V, H).astype('f') 
W out = 0.01 * np.random.randn(H, V).astype('f') 


3 生成 层 

self.in layer0 = MatMul(W in) 
self.in layerl = MatMul(W in) 
self.out layer - MatMul(W out) 
self.loss layer = SoftmaxWithLoss() 





# 将 所 有 的 权重 和 梯度 整理 到 列表 中 
layers = [self.in layer0, self.in layerl, self.out layer] 
self.params, self.grads = [], [1] 
for layer in layers: 
self.params += layer.params 
self.grads += layer.grads 


# 将 单词 的 分 布 式 表示 设置 为 成 员 变量 
self.word vecs = W in 





这 里 ， 初 始 化 方法 的 参数 包括 词汇 个 数 vocab size 和 中 间 层 的 神经 元 
个 数 hidden_size。 关 于 权重 的 初始 化 ， 首 先 我 们 生成 两 个 权重 (w_in 和 中 
out )， 并 用 一 些小 的 随机 值 初始 化 这 两 个 权重 。 此 外 ， 我 们 指定 NumPy 数 
组 的 数据 类 型 为 astype('f')， 这 样 一 来 ,初始 化 将 使 用 32 位 的 浮 点 数 。 


pap 
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接着 ， 我 们 创建 必要 的 层 。 首 先 ， 生 成 两 个 输入 侧 的 MatMul 层 、 一 个 
输出 侧 的 MatMul 层 ， 以 及 一 个 Softmax with Loss 层 。 这 里 ， 用 来 处 理 输 
入 侧 上 下 文 的 MatMul 层 的 数量 与 上 下 文 的 单词 数量 相同 〈 本 例 中 是 两 个 )。 
另外 ， 我 们 使 用 相同 的 权重 来 初始 化 MatMul 层 。 

最 后 ， 将 该 神经 网 络 中 使 用 的 权重 参数 和 梯度 分 别 保存 在 列表 类 型 的 成 


员 变 量 params 和 grads 中 。 



























































这 里 ， 多 个 层 共 享 相 同 的 权重 。 因 此 ，params 列 表 中 存在 多 个 村 
同 的 权重 。 但是， 在 params 列表 中 存在 多 个 相同 的 权重 的 情况 
F, Adam, Momentum 等 优化 器 的 运行 会 变 得 不 符合 预期 (至 
少 就 我 们 的 代码 而 言 )。 为 此 ， 在 Trainer 类 的 内 部 ， 在 更 新 参数 
时 会 进行 简单 的 去 重 操作 。 关 于 这 一 点 ， 这 里 省 略 说 明 ， 感 兴趣 


的 读者 可 以 参考 common/trainer.py 的 remove duplicate(params, 
























































































































































grads) 。 


接 下 来 ， 我 们 来 实现 神经 网 络 的 正 向 传播 forward() 函数 。 这 个 函数 接 
收 参 数 contexts 和 target， 并 返回 损失 (loss )。 





def forward(self, contexts, target): 
ho = self.in layer0.forward(contexts[:, 0]) 
hl = self.in layerl.forward(contexts[:, 1]) 
h = (h0 + hl) * 0.5 
score - self.out layer.forward(h) 
loss = self.loss layer.forward(score, target) 
return loss 





这 里 ， 我 们 假定 参数 contexts 是 一 个 三 维 NumPy 数组 ， 即 上 一 节 图 
3-18 的 例子 中 (6,2,7) 的 形状 ， 其 中 第 0 维 的 元 素 个 数 是 mini-batch 的 数量 ， 
第 1 维 的 元 素 个 数 是 上 下 文 的 窗口 大 小 ， 第 2 维 表示 one-hot 向 量 。 此 外 ， 
target 是 (6,7) 这 样 的 二 维 形状 。 

最 后 ， 我 们 实现 反 向 传播 backward() 。 这 个 反 向 传播 的 计算 图 如 图 3-20 
所 示 。 
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(1,0,0,0,0,0,0) — ——». MatMul (0, 1, 0, 0, 0,0,0) — 





H 上 » X » MatMul > with 
JA Ha 一 六 Loss 
0.5-da 4 da ds 1 





0.5 








(0, 0, 1,0, 0, 0, 0) » MatMul 








Win 














图 3-20 CBOW 模型 的 反 向 传播 : 蓝 色 的 粗 线 表示 反 向 传播 的 路 线 





神经 网 络 的 反 向 传播 在 与 正 向 传播 相反 的 方向 上 传播 梯度 。 这 个 反问 传 
播 从 1 出 发 ， 并 将 其 传 向 Softmax with Loss 层 。 然 后 ， 将 Softmax with 
Loss 层 的 反 向 传播 的 输出 ds 传 到 输出 侧 的 MatMnul 层 。 

之 后 就 是 “+” 和 “x” 运 算 的 反 向 传播 。“x” 的 反 向 传播 将 正 向 传播 
时 的 输入 值 “ 交 换 ” 后 乘 以 梯度 。 "十 ”的 反 向 传播 则 将 梯度 “原样 ”传播 。 
我 们 按照 图 3-20 来 实现 反 向 传播 。 














def backward(self, dout=1): 
ds = self.loss_layer.backward (dout) 
da = self.out layer.backward(ds) 
da *= 0.5 
self.in_layer1.backward (da) 
self.in layer0.backward(da) 
return None 





至 此 ， 反 向 传播 的 实现 就 结束 了 。 我 们 已 经 将 各 个 权重 参数 的 梯度 
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保存 在 了 成 员 变量 grads 中 。 因 此 ， 通 过 先 调用 forward() 函数 ， 再 调 
用 backward() 函数 ，grads 列表 中 的 梯度 被 更 新 。 下 面 ， 我 们 继续 看 一 1 
SimpleCBOW 类 的 学 习 。 








7| 





学 习 的 实现 
CBOW 模型 的 学 习 和 一 般 的 神经 网 络 的 学 习 完 全 相同 。 首 先 ， 给 神 
经 网 络 准备 好 学 习 数 据 。 然 后 ， 求 梯度 ， 并 逐步 更 新 权重 参数 。 这 里 ,我 


们 使 用 第 1 章 介绍 的 Trainer 类 来 执行 学 习 过 程 ， 学 习 的 源 代码 如 下 所 示 
( & ch03/train.py )。 

















import sys 

sys.path.append('..') 

from common.trainer import Trainer 

from common.optimizer import Adam 

from simple cbow import SimpleCBOW 

from common.util import preprocess, create contexts target, 
— convert one hot 


window size = 1 
hidden size - 5 
batch size = 3 


max epoch - 1000 


text = 'You say goodbye and I say hello.' 
corpus, word to id, id to word - preprocess(text) 


vocab size - len(word to id) 

contexts, target - create contexts target(corpus, window size) 
target = convert one hot(target, vocab size) 

contexts - convert one hot(contexts, vocab size) 


model = SimpleCBOW(vocab size, hidden size) 
optimizer - Adam() 
trainer - Trainer(model, optimizer) 
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trainer.fit(contexts, target, max epoch, batch size) 
trainer.plot() 





common/optimizer.py 中 实现 了 SGD, AdaGrad 等 多 个 著名 的 参数 更 新 
方法 。 这 里 ， 我 们 选择 Adam 算法 。 如 第 1 章 所 述 ，Trainer 类 会 执行 神经 
网 络 的 学 习 过 程 ， 包 括 从 学 习 数 据 中 选 出 mini-batch 给 神经 网 络 以 算出 梯 
度 ， 并 将 这 个 梯度 给 优化 器 以 更 新 权重 参数 等 一 系列 操作 。 


















































之 后 ,我 们 也 使 用 Trainer 类 进行 神经 网 络 的 学 习 。 使 用 Trainer 类 ， 
可 以 理 清 容易 变 复杂 的 学 习 代 码 。 























运行 上 面 的 代码 ， 结 果 如 图 3-21 所 示 。 
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图 3-21 用 图 形 表示 学 习 过 程 ( 横 轴 表示 学 习 的 迭代 次 数 ， 纵 轴 表 示 损 失 ) 


如 图 3-21 所 示 ， 通 过 不 断 学 习 ， 损 失 在 减 小 ， 看 起 来 学 习 进行 得 一 
切 正常 。 我 们 来 看 一 下 学 习 结 束 后 的 权重 参数 。 这 里 ， 我 们 取出 输入 侧 的 
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MatMul 层 的 权重 ， 实 际 确认 一 下 它 的 内 容 。 因 为 输入 侧 的 MatMul 层 的 权 
重 已 经 赋值 给 了 成 员 变量 word_vecs， 所 以 接着 上 面 的 代码 ， 我 们 追加 下 镍 
的 代码 。 














word vecs = model.word vecs 
for word id, word in id to word.items(): 
print(word, word vecs[word id]) 





这 里 ， 使 用 word vecs 这 个 变量 保存 权重 。word_vecs 的 各 行 保存 了 对 应 
的 单词 ID 的 分 布 式 表示 。 实 际 运行 一 下 ， 可 以 得 到 下 述 结 





you [-0.9031807 -1.0374491 -1.4682057 -1.3216232 0.93127245] 

say [ 1.2172916 1.2620505 -0.07845993 0.07709391 -1.2389531 ] 
goodbye [-1.0834033 -0.8826921 -0.33428606 -0.5720131 1.0488235 ] 
and [ 1.0244362 1.0160093 -1.6284224 -1.6400533 -1.0564581] 

i [-1.0642933 -0.9162385 -0.31357735 -0.5730831 1.041875 ] 

hello [-0.9018145 -1.035476 -1.4629668 -1.3058501 0.9280102] 

. [ 1.0985303 1.1642815 1.4365371 1.3974973 -1.0714306] 


我 们 终于 将 单词 表示 为 了 密集 向 量 ! 这 就 是 单词 的 分 布 式 表示 。 我 们 有 
理由 相信 ， 这 样 的 分 布 式 表示 能 够 很 好 地 捕获 单词 含义 。 

不 过 ， 遗 憾 的 是 ， 这 里 使 用 的 小 型 语料库 并 没有 给 出 很 好 的 结果 。 当 
然 ， 主 要 原因 是 语料库 太 小 了 。 如 果 换 成 更 大 、 更 实用 的 语料库 ， 相 信 会 获 
得 更 好 的 结果 。 但 是 ， 这 样 在 处 理 速度 方面 又 会 出 现 新 的 问题 ， 这 是 因为 当 
前 这 个 CBOW 模型 的 实现 在 处 理 效 率 方面 存在 几 个 问题 。 下 一 章 我 们 将 改 
进 这 个 简单 的 CBOW 模型 ， 实 现 一 个 “真正 的 ”CBOW 模型 。 





















































3.5 word2vec 的 补充 说 明 


至 此 ， 我 们 详细 探讨 了 word2vec 的 CBOW 模型 。 接 下 来 ， 我 们 将 对 
word2vec 补充 说 明 几 个 非常 重要 的 话题 。 首 先 ， 我 们 从 概率 的 角度 ， 再 来 
看 一 下 CBOW 模型 。 
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3.51 CBOW 模 型 和 概率 

首先 简单 说 明 一 下 概率 的 表示 方法 。 本 书 中 将 概率 记 为 P(.)， 比 如 事 
件 4 发 生 的 概率 记 为 P(4)。 联 合 概率 记 为 P(A, B), RIEF A 和 事件 
B 同时 发 生 的 概率 。 

后 验 概率 记 为 P(4|B)， 字面 意思 是 “事件 发 生 后 的 概率 ”。 从 另 一 个 
角度 来 看 ， 也 可 以 解释 为 “在 给 定 事件 B (的 信息 ) 时 事件 4 发 生 的 概率 ”。 

下 面 ， 我 们 用 概率 的 表示 方法 来 描述 CBOW 模型 。CBOW 模型 进行 
的 处 理 是 ， 当 给 定 某 个 上 下 文 时 ， 输 出 目标 词 的 概率 。 这 里 ， 我 们 使 用 包含 
单词 wi, 2w2,…, wT 的 语料库 。 如 图 3-22 所 示 ， 对 第 t 个 单词 ， 考 虑 窗口 大 
小 为 1 的 上 下 文 。 





















































Wi Wa WaW] Wea WT Wr 











3-22 word2vec 的 CBOW 模型 : 从 上 下 文 的 单词 预测 目标 词 


下 面 ， 我 们 用 数学 式 来 表示 当 给 定 上 下 文 wi_1 wen 时 目标 词 为 we 
的 概率 。 使 用 后 验 概率 ， 有 式 (3.1): 





P(wi|wi-i, wt+1) (3.1) 


式 (3.1) 表示 “在 wei 和 wea 发 生 后 ，wi 发 生 的 概率 "， 也 可 以 解释 
为 “ 当 给 定 we- M w 时 ， w 发 生 的 概率 "。 也 就 是 说 ，CBOW 模型 可 
以 建 模 为 式 (3.1)。 

这 里 ， 使 用 式 (3.1) 可 以 简洁 地 表示 CBOW 模型 的 损失 函数 。 我 
AER 1 xt 4p ZR Se SCR UR 25 PRG CX (1.7) ) 套用 在 这 里 。 式 (1.7) 是 

L=- X tr l08 Yk, 其 中 ,yx cR tx 是 监督 标签 ， 
它 是 one-hot 向 量 的 元 素 。 这 里 需要 注意 的 是 , “us 发 生 ” 这 一 事件 是 正确 
解 ， 它 对 应 的 one-hot 向 量 的 元 素 是 1， 其 他 元 素 都 是 0 (也 就 是 说 ， 当 w 
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之 外 的 事件 发 生 时 ， 对 应 的 one-hot 向 量 的 元 素 均 为 0 )。 考 虑 到 这 一 点 ， 可 
以 推导 出 下 式 : 





L = —log P(wi|ws-i, wt4a) (3.2) 


CBOW 模型 的 损失 函数 只 是 对 式 (3.1) 的 概率 取 log, 2fJ E fam. MS 
便 提 一 下 ， 这 也 称 为 负 对 数 似 然 (negative log likelihood )。 式 (3.2) 是 一 
笔 样 本 数据 的 损失 函数 。 如 果 将 其 扩展 到 整个 语料库 ， 则 损失 函数 可 以 
写 为 : 





T 
1 
L= 一 元 5 log P(wi|ws-3, wt41) (9.3) 


tl 





CBOW 模型 学 习 的 任务 就 是 让 式 (3.3) 表示 的 损失 函数 尽 可 能 地 小 。 
那 时 的 权重 参数 就 是 我 们 想 要 的 单词 的 分 布 式 表 示 。 这 里 ， 我 们 只 考虑 了 窗 
口 大 小 为 1 的 情况 ， 不 过 其 他 的 窗口 大 小 (或 者 窗口 大 小 为 m 的 一 般 情况 ) 
也 很 容易 用 数学 式 表示 。 











3.5.2 ”skip-gram 模 型 








如 前 所 述 ，word2vec 有 两 个 模型 : 一 个 是 我 们 已 经 讨论 过 的 CBOW 
模型 ， 另 一 个 是 被 称 为 skip-gram 的 模型 。skip-gram 是 反 转 了 CBOW 模 
型 处 理 的 上 下 文 和 目标 词 的 模型 。 举 例 来 说 ， 两 者 要 解决 的 问题 如 图 3-23 
所 示 。 














CBOW 模型 skip-gram 模型 


L2 say ? and i say hello. 





you| ? goodbye and i say hello. 











3-23 CBOW 模型 和 skip-gram 模 型 处 理 的 问题 





如 图 3-23 所 示 ，CBOW 模型 从 上 下 文 的 多 个 单词 预测 中 间 的 单词 C EI 
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标 词 )， 而 skip-gram 模型 则 从 中 间 的 单词 C 目标 词 ) 预测 周围 的 多 个 单词 
(上 下 文 )。 此 时 ，skip-gram 模型 的 网 络 结构 如 图 3-24 所 示 。 












































you 1 
say 0 
goodbye 0 
and 0 
you [o i 0 
say 1 hello 0 
goodbye 0 0 
and 0 mE 
i 0 you 0 
hello 0 say 0 
0 goodbye 1 
输入 层 and 0 
i 0 
hello 0 
0 
正确 解 标签 














3-24 skip-gram 模型 的 例子 





由 图 3-24 可 知 ，skip-gram 模型 的 输入 层 只 有 一 个 ， 输 出 层 的 数量 则 
与 上 下 文 的 单词 个 数 相等 。 因 此 ， 首 先 要 分 别 求 出 各 个 输出 层 的 损失 ( 通过 
Softmax with Loss 层 等 )， 然 后 将 它们 加 起 来 作为 最 后 的 损失 。 

现在 ， 我 们 使 用 概率 的 表示 方法 来 表示 skip-gram 模型 。 我 们 来 考虑 
根据 中 间 单 词 〈 目标 词 ) wi 预测 上 下 文 we 和 wen 的 情况 。 此 时 ，skip- 
gram 可 以 建 模 为 式 (3.4) : 





P(wii, wega|wi) (3.4) 
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式 (3.4) 表示 “ 当 给 定 we 时 ，wt 和 wai 同时 发 生 的 概率 "。 这 里 ， 
在 skip-gram 模型 中 ， 假 定 上 下 文 的 单词 之 间 没 有 相关 性 〈 正确 地 说 是 假定 
“条 件 独立 ”)， 将 式 (3.4) 如 下 进行 分 解 : 








P(wii, wizi]we) = P(wii|wi) Plwerilw) (3.5) 








通过 将 式 (3.5) RAZER PRU, RT VATEESI HI skip-gram 模型 的 损 
ARTE: 





L = — log P(wi-1; wt+1|wt) 
= — log P(wi1|wt) P (w41 |wt) ( 3.6) 


= —(log P(wi-1|wt) + log P(w:+1|w)) 








这 里 利用 了 对 数 的 性 质 log zy = logz + logy。 如 式 (3.6) 所 示 ，skip- 
gram 模型 的 损失 函数 先 分 别 求 出 各 个 上 下 文 对 应 的 损失 ， 然 后 将 它们 加 在 
一 起 。 式 (3.6) 是 一 笔 样 本 数据 的 损失 函数 。 如 果 扩展 到 整个 语料库 ， 则 
skip-gram 模型 的 损失 函数 可 以 表示 为 式 (3.7) : 











T 
p -5 Y (log P(w- ijwi) + log P(w lwe)) (3.7) 


t=1 


比较 式 (3.7) 和 CBOW 模型 的 式 (3.3) ， 差 异 是 非常 明显 的 。 因 为 skip- 
gram 模型 的 预测 次 数 和 上 下 文 单词 数量 一 样 多 ， 所 以 它 的 损失 函数 需要 求 
各 个 上 下 文 单词 对 应 的 损失 的 总 和 。 而 CBOW 模型 只 需要 求 目 标 词 的 损失 。 
以 上 就 是 对 skip-gram 模型 的 介绍 。 

那么 ,我 们 应 该 使 用 CBOW 模型 和 skip-gram 模型 中 的 哪 一 个 呢 ? 答 
案 应 该 是 skip-gram 模型 。 这 是 因为 ， 从 单词 的 分 布 式 表示 的 准确 度 来 看 ， 
在 大 多 数 情况 下 ，skip-grm 模型 的 结果 更 好 。 特 别 是 随 着 语料库 规模 的 增 
大 ， 在 低频 词 和 类 推 问题 的 性 能 方面 ，skip-gram 模型 往往 会 有 更 好 的 表现 
(单词 的 分 布 式 表示 的 评价 方法 会 在 4.4.2 节 说 明 )。 此 外 ， 就 学 习 速度 而 言 ， 
CBOW 模型 比 skip-gram 模型 要 快 。 这 是 因为 skip-gram 模型 需要 根据 上 
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下 文 数量 计算 相应 个 数 的 损失 ， 计 算 成 本 变 大 。 


skip-gram 模型 根据 一 个 单词 预测 其 周围 的 单词 ， 这 是 一 个 非常 难 
` 的 问题 。 假 如 我 们 来 解决 图 3-23 中 的 问题 ， 此 时 ， 对 于 CBOW 模 
型 的 问题 , 我 们 很 容易 回答 “say”。 但 是 , 对 于 skip-gram 模型 的 问题 ， 
则 存在 许多 候选 。 因 此 ， 可 以 说 skip-gram 模型 要 解决 的 是 更 难 的 


问题 。 经 过 这 个 更 难 的 问题 的 锻炼 ，skip-gram 模型 能 提供 更 好 的 
单词 的 分 布 式 表 示 。 




























































































































































































理解 了 CBOW 模型 的 实现 ， 在 实现 skip-gram 模型 时 应 该 就 不 存在 什 
么 难点 了 。 因 此 ， 这 里 就 不 再 介绍 skip-gram 模型 的 实现 。 感 兴趣 的 读者 可 
以 参考 ch03/simple skip gram.py, 





3.5.3 ”基于 计数 与 基于 推理 


到 目前 为 止 , 我们 已 经 了 解 了 基于 计数 的 方法 和 基于 推理 的 方法 ( 特别 
是 word2vec )。 两 种 方法 在 学 习 机 制 上 存在 显著 差异 : 基于 计数 的 方法 通过 
对 整个 语料库 的 统计 数据 进行 一 次 学 习 来 获得 单词 的 分 布 式 表示 ， 而 基于 推 
理 的 方法 则 反复 观察 语料库 的 一 部 分 数据 进行 学 习 ( mini-batch 学 习 )。 这 
里 ， 我 们 就 其 他 方面 来 对 比 一 下 这 两 种 方法 。 

首先 ， 我 们 考虑 需要 向 词汇 表 添 加 新 词 并 更 新 单词 的 分 布 式 表 示 的 场 
景 。 此 时 ， 基 于 计数 的 方法 需要 从 头 开始 计算 。 即 便 是 想 稍微 修改 一 下 单词 
的 分 布 式 表示 ， 也 需要 重新 完成 生成 共 现 矩阵、 进行 SVD 等 一 系列 操作 。 
相反 ， 基 于 推理 的 方法 (word2vec) 允许 参数 的 增 量 学 习 。 具 体 来 说 ， 可 
以 将 之 前 学 习 到 的 权重 作为 下 一 次 学 习 的 初始 值 ， 在 不 损失 之 前 学 习 到 的 经 
验 的 情况 下 ， 高 效 地 更 新 单词 的 分 布 式 表示 。 在 这 方面 ， 基 于 推理 的 方法 
(word2vec ) 具有 优势 。 

其 次 ， 两 种 方法 得 到 的 单词 的 分 布 式 表示 的 性 质 和 准确 度 有 什么 差 
异 呢 ?就 分 布 式 表 示 的 性 质 而 言 ， 基 于 计数 的 方法 主要 是 编码 单词 的 相似 
TE, Tij word2vec (特别 是 skip-gram 模型 ) 除了 单词 的 相似 性 以 外 ， 还 能 
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理解 更 复杂 的 单词 之 间 的 模式 。 关 于 这 一 点 ，word2vec 因 能 解 开 “king — 
man 十 woman = queen” 这 样 的 类 推 问题 而 知名 (关于 类 推 问题 ， 我 们 将 
在 4.4.2 节 说 明 )。 

这 里 有 一 个 常见 的 误解 ， 那 就 是 基于 推理 的 方法 在 准确 度 方面 优 于 基于 
计数 的 方法 。 实 际 上 ， 有 研究 表明 ， 就 单词 相似 性 的 定量 评价 而 言 ， 基 于 推 
理 的 方法 和 基于 计数 的 方法 难 分 上 下 P9], 


2014 年 发 表 的 题 为 "Don' t count, predict!”( 不 要 计数 ， 要 预测 !) 
1 Y 的 论文 2 系统 地 比较 了 基于 计数 的 方法 和 基于 推理 的 方法 ， 并 给 
LIN 


出 了 基于 推理 的 方法 在 准确 度 上 始终 更 好 的 结论 。 但 是 ， 之 后 又 有 


























































































































































































































其 他 的 论文 25 提出 ， 就 单词 的 相似 性 而 言 ， 结 论 高 度 依赖 于 超 参 数 ， 
基于 计数 的 方法 和 基于 推理 的 方法 难 分 胜 负 。 






























































男 外 一 个 重要 的 事实 是 ， 基 于 推理 的 方法 和 基于 计数 的 方法 存在 关联 
性 。 有 具体 地 说 ， 使 用 了 skip-gram 和 下 一 章 介绍 的 Negative Sampling 的 模 
型 被 证 明 与 对 整个 语料库 的 共 现 矩阵 ( 实际 上 会 对 和 矩阵 进行 一 定 的 修改 ) 进 
行 特殊 矩阵 分 解 的 方法 具有 相同 的 作用 26]。 换 名 话说， 这 两 个 方法 论 (在 
某 些 条 件 下 ) 是 “相通 ”的 。 

此 外 ,在 word2vec 之 后 ， 有 研究 人 员 提 出 了 GloVe 方 法 P7, GloVe 
方法 融合 了 基于 推理 的 方法 和 基于 计数 的 方法 。 该 方法 的 思想 是 ， 将 整个 语 
料 库 的 统计 数据 的 信息 纳入 损失 函数 ， 进 行 mini-batch 学 习 (具体 请 参考 
论文 27] )。 据 此 ， 这 两 个 方法 论 成 功 地 被 融合 在 了 一 起 。 


















































3.6 小 结 | 127 





3.6 小 结 


托马斯 - 米 科 洛 夫 (Tomas Mikolov ) 在 一 系列 论文 BAB 引 中 提出 了 
word2vec。 自 论文 发 表 以 来 ，word2vec 受到 了 许多 关注 ， 它 的 作用 也 在 许 
多 自然 语言 处 理 任务 中 得 到 了 证 明 。 下 一 章 ， 我 们 将 结合 具体 的 例子 来 说 明 
word2vec 的 重要 性 ， 特 别 是 word2vec 的 迁移 学 习 的 作用 。 

本 章 我 们 详细 解释 了 word2vec 的 CBOW 模型 ， 并 对 其 进行 了 实 
现 。CBOW 模型 基本 上 是 一 个 2 层 的 神经 网 络 ， 结 构 非常 简单 。 我 们 使 用 
MatMul 层 和 Softmax with Loss 层 构 建 了 CBOW 模型 ， 并 用 一 个 小 规模 
语料库 确认 了 它 的 学 习 过 程 。 遗 憾 的 是 ， 现 阶段 的 CBOW 模型 在 处 理 效率 
上 还 存在 一 些 问 题 。 不 过 ， 在 理解 了 本 章 的 CBOW 模型 之 后 ， 离 真正 的 
word2vec 也 就 一 步 之 通 了 。 下 一 章 ， 我 们 将 改进 CBOW 模型 。 
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第 4 章 
word2vec 的 高 速 化 


不 要 企图 无 所 不 知 ， 否 则 你 将 一 无 所 知 。 
一 一 德 广 克 利 特 ( 十 希腊 哲学 家 ) 


上 一 章 我 们 学 习 了 word2vec 的 机 制 ， 并 实现 了 CBOW 模型 。 因 为 
CBOW 模型 是 一 个 简单 的 2 层 神经 网 络 ， 所 以 实现 起 来 比较 简单 。 但 是 ， 
目前 的 实现 存在 几 个 问题 ， 其 中 最 大 的 问题 是 ， 随 着 语料库 中 处 理 的 词汇 量 
的 增加 ， 计 算 量 也 随 之 增加 。 实 际 上 ， 当 词汇 量 达到 一 定 程 度 之 后 ， 上 一 章 
的 CBOW 模型 的 计算 就 会 花费 过 多 的 时 间 。 

因此 ， 本 章 将 重点 放 在 word2vec 的 加 速 上 ， 来 改善 word2vec。 具 
体 而 言 ， 我 们 将 对 上 一 章 中 简单 的 word2vec 进行 两 点 改进 : 引入 名 为 
Embedding 层 的 新 层 ， 以 及 引入 名 为 Negative Sampling 的 新 损失 函数 。 
这 样 一 来 ， 我 们 就 能 够 完成 一 个 “真正 的 ”word2vec。 完 成 这 个 真正 的 
word2vec 后 ， 我 们 将 在 PTB 数据 集 (一 个 大 小 比较 实用 的 语料库 ) 上 进行 
学 习 ， 并 实际 评估 所 获得 的 单词 的 分 布 式 表 示 的 优 劣 。 


















































4.1 word2vec 的 改进 中 


我 们 先 复 习 一 下 上 一 章 的 内 容 。 在 上 一 章 中 ， 我 们 实现 了 图 4-1 中 的 
CBOW 模型 。 
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4-1 上 一 章 中 实现 的 CBOW 模型 





如 图 4-1 所 示 ， 上 一 章 的 CBOW 模型 接收 拥有 2 个 单词 的 上 下 文 ， 并 








之 间 的 矩阵 乘积 计算 中 间 层 ， 通 过 中 间 层 和 输出 侧 权 习 
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基于 它们 预测 1 个 单词 〈 目标 词 )。 此 时 ,通过 输入 层 和 输入 侧 权 重 ( Win ) 


(Wout ) ZR] BRE 
阵 乘积 计算 每 个 单词 的 得 分 。 这 些 得 分 经 过 Softmax 函数 转化 后 ， 得 到 每 
个 单词 的 出 现 概率 。 通 过 将 这 些 概 率 与 正确 解 标签 进行 比较 ( 更 确切 地 说 ， 
















































































兽 一 个 功能 ， 使 之 能 够 处 理 任意 窗口 大 小 的 上 下 文 。 








在 上 一 章 中， 我们 限定 了 上 下 文 的 窗口 大 小 为 1。 这 相当 于 只 将 
标 词 的 前 一 个 和 后 一 个 单词 作为 上 下 文 。 本 章 我 们 将 给 模型 新 





图 4-1 中 的 CBOW 模型 在 处 理 小 型 语料库 时 间 题 不 大 。 实 际 上 , 图 4-1 
中 处 理 的 词汇 量 一 共 只 有 7 个， 这 个 规模 自然 毫 无 问题 。 不 过 在 处 理 大 规模 
语料库 时 ， 这 个 模型 就 存在 多 个 问题 了 。 为 了 指出 这 些 问题 ， 这 里 我 们 考虑 
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一 个 例子 。 假 设 词汇 量 有 100 万 个 ，CBOW 模型 的 中 间 层 神经 元 有 100 个 ， 
此 时 word2vec 进行 的 处 理 如 图 4-2 所 示 。 
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图 4-2 ”假设 词汇 量 为 100 万 个 时 的 CBOW 模型 


如 图 4-2 所 示 ， 输 入 层 和 输出 层 存在 100 万 个 神经 元 。 在 如 此 多 的 神经 
元 的 情况 下 ， 中 间 的 计算 过 程 需 要 很 长 时 间 。 具 体 来 说 ， 以 下 两 个 地 方 的 计 
算 会 出 现 瓶 颈 。 

e 输入 层 的 one-hot 表示 和 权重 和 矩阵 Win 的 乘积 (4.1 节 解决 ) 

e PREPRE Wou 的 乘积 以 及 Softmax 层 的 计算 (4.2 节 解 决 ) 


第 1 个 问题 与 输入 层 的 one-hot 表示 有 关 。 这 是 因为 我 们 用 one-hot 表 
示 来 处 理 单词 ， 随 着 词汇 量 的 增加 ，one-hot 表示 的 向 量 大 小 也 会 增加 。 比 
如 ， 在 词汇 量 有 100 万 个 的 情况 下 ， 仅 one-hot 表示 本 身 就 需要 占用 100 万 
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个 元 素 的 内 存 大 小 。 此 外 ， 还 需要 计算 one-hot 表示 和 权重 矩阵 Win 的 乘 


^N 





人 新 的 Embedding 层 来 解决 。 




















第 2 个 问题 是 中 间 层 之 后 的 计算 。 








只 ， 这 也 要 花费 大 量 的 计算 资源 。 关 于 这 个 问题 ， 我 们 会 在 4.1 节 中 通过 引 


首先 ， 中 间 层 和 权重 矩阵 Wout 的 乘 


积 需要 大 量 的 计算 。 其 次 ， 随 着 词汇 量 的 增加 ，Softmax 层 的 计算 量 也 会 增 


加 。 关 于 这 些 问题 ， 





我 们 将 在 4.2 节 通 过 引入 Negative Sampling 这 一 新 的 


损失 函数 来 解决 。 下 面 就 让 我 们 通过 改进 来 消除 这 两 个 瓶颈 。 


改进 前 的 
cbow.py( 

















版 本 (上 一 章 中 的 word2vec 实 现 ) 在 ch03 








录 下 的 simple_ 








或 者 simple skip gram.py) 中 。 改 进 后 上 





` 





在 ch04 E 











录 下 的 cbow.py( 或 者 skip gram.py) 中 。 


4.1.1 Embedding Æ 


在 上 一 章 的 word2vec 实现 中 ， 我 们 将 单词 转化 为 了 one-hot 表示 ， 并 
将 其 输入 了 MatMul 层 ,在 MatMul 层 中 计算 了 该 one-hot 表示 和 权重 和 矩阵 
的 乘积 。 这 里 ， 我 们 来 考虑 词汇 量 是 100 万 个 的 情况 。 假 设 中 间 层 的 神经 元 
个 数 是 100， 则 MatMul 层 中 的 矩阵 乘积 可 画 成 图 4-3。 








义 word2vec 版 本 
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4-3 one-hot 表示 的 上 下 文科 MatMul 层 的 权重 的 乘积 
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如 图 4-3 所 示 ， 如 果 语 料 库 的 词汇 量 有 100 万 个 ， 则 单词 的 one-hot 表 
示 的 维 数 也 会 是 100 万 ， 我 们 需要 计算 这 个 巨大 向 量 和 权重 矩阵 的 乘积 。 但 
是 ， 图 4-3 中 所 做 的 无 非 是 将 抢 阵 的 某 个 特定 的 行 取出 来 。 因 此 ， 直 觉 上 将 
单词 转化 为 one-hot 向 量 的 处 理 和 MatMul 层 中 的 和 矩阵 乘法 似乎 没有 必要 

现在 ， 我 们 创建 一 个 从 权重 参数 中 抽取 “单词 ID 对 应 行 (向 量 》 的 
E E 顺便 说 一 句 ，Embedding HA “Wik 
A” (word embedding) 这 一 术语 。 也 就 是 说 ， 在 这 个 Embedding 层 存放 
WRA (IIKI )。 


















































在 自然 语言 处 理 领 域 ， 单 词 的 密集 向 量 表示 称 为 词 做 入 (word 
embedding ) 或 者 单词 的 分 布 式 表示 (distributed representation )。 
过 去 , 将 基于 计数 的 方法 获得 的 单词 向 量 称 为 distributional 
representation， 将 使 用 神经 网 络 的 基于 推理 的 方法 获得 的 单词 向 
量 称 为 distributed representation 。 不 过 ， 中 文 里 二 者 都 译 为 “分 
布 式 表示 ” o 
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4.1.2. Embedding 层 的 实现 





从 矩阵 中 取出 某 一 行 的 处 理 是 很 容易 实现 的 。 这 里 ， 假 设 权重 w 是 
NumPy 的 二 维 数组 。 如 果 要 从 这 个 权重 中 取出 某 个 特定 的 行 ， 只 需 写 W[2] 


或 者 W[5]。 用 Python 代码 来 实现 ， 如 下 所 示 。 


>>> import numpy as np 

>>> W = np.arange(21).reshape(7, 3) 

>>> W 

array([[ 0, 1, 2], 
[3, 4, 5], 
[6, 7, 8], 
[ 9, 10; 11], 
[12, 13, 14], 
[15, 16, 17], 
[18, 19, 20]]) 

>>> W[2] 

array([6, 7, 8]) 
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>>> W[5] 
array([15, 16, 17]) 


另外 ， 从 权重 w 中 一 次 性 提取 多 行 的 处 理 也 很 简单 。 只 需 通 过 数组 指定 
行 号 即 可 ， 实 际 的 代码 如 下 所 示 。 


>>> idx = np.array([1, 0, 3, 0]) 


>>> W[idx] 

array([[ 3, 4, 5], 
D 0; lI, 2]; 
[ 9, 10, 11], 
[ 0, 1, 21]) 








在 这 个 例子 中 ， 我 们 一 次 性 提取 了 4 个 索引 (1、0、3、0 )。 通 过 将 数 
组 作为 参数 ， 可 以 一 次 性 提取 多 行 。 顺 便 说 一 下 ， 这 里 的 实现 假定 用 于 
mini-batch 处 理 。 

下 面 ， 我 们 来 实现 Embedding 层 的 forward() 方法 。 人 参照 之 前 的 例子 ， 
实现 如 下 所 示 (SS common/layers .py )。 














class Embedding: 
def | init (self, W): 
self.params - [W] 
self.grads - [np.zeros like(W)] 
self.idx - None 


de 


=h 


forward(self, idx): 
W, = self.params 
self.idx = idx 

out = W[idx] 

return out 





根据 本 书 的 代码 规范 ， 使 用 params 和 grads 作为 成 员 变 量 ， 并 在 成 员 变 
量 idx 中 以 数组 的 形式 保存 需要 提取 的 行 的 索引 (单词 ID )。 

接 下 来 ， 我们 考虑 反 向 传播 。 Embedding 层 的 正 向 传播 只 是 从 权重 矩 
阵 W 中 提取 特定 的 行 ， 并 将 该 特定 行 的 神经 元 原样 传 给 下 一 层 。 因 此 ， 在 反 
向 传播 时 ， 从 上 一 层 ( 输出 侧 的 层 ) 传 过 来 的 梯度 将 原样 传 给 下 一 层 ( 输 
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入 侧 的 层 )。 不 过 ， 从 上 一 层 传 来 的 梯度 会 被 应 用 到 权重 梯度 dw 的 特定 行 
(idx )， 如 图 4-4 所 示 。 
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4-4 BEmbedding 层 的 正 向 传播 和 反 向 传播 处 理 的 概要 (BEmbedding 层 记 为 Bmbed) 


基于 以 上 内 容 ， 我 们 来 实现 backward() ， 代 码 如 下 所 示 。 


def backward(self, dout): 
dW, = self.grads 
dw[...] 2 0 
dw[self.idx] = dout # 不 太 好 的 方式 
return None 


这 里 ， 取 出 权重 梯度 du， 通过 dw[...] = 9 将 的 元 素 设 为 0 ( 并 不 是 
将 ow 设 为 0， 而 是 保持 dw 的 形状 不 变 ， 将 它 的 元 素 设 为 0 )。 然 后 ， 将 上 一 
层 传 来 的 梯度 dout FA idx 指定 的 行 。 
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这 里 创建 了 和 权重 W 相 同 大 小 的 矩阵 dW， 并 将 梯度 写 入 了 dW 对 应 
的 行 。 但 是 , 我 们 最 终 想 做 的 事情 是 更 新 权重 W， 所 以 没有 必要 
特意 创建 dW( 大 小 与 W 相 同 )。 相 反 ， 只 需 把 需要 更 新 的 行 号 (idx) 
其 对 应 的 梯度 (dout ) 保存 下 来 ， 就 可 以 更 新 权重 (W) 的 特定 行 。 
但 是 ， 这 里 为 了 兼容 已 经 实现 的 优化 器 类 (0ptimizer)， 所 以 写 


成 了 现在 的 样子 。 

































































































































































实际 上 ， 在 刚才 的 backward() 的 实现 中 ， 存 在 一 个 问题 ， 这 一 问题 发 生 
在 idx 的 元 素 出 现 重复 时 。 比 如 ， 当 idx 为 [0，2，6，4] 时 ， 就 会 发 生 图 4-5 
中 的 问题 。 





[©® CO CO... 
OOT! | um Tx 
€ 0 
© @ 6 2 
| 2 0 
e e| 4 
dh ida 


dW 











图 4-5 ” 当 idx 数 组 的 元 素 中 出 现 相 同 的 行 号 时 ， 简 单 地 将 dh 的 行 写 入 对 应 位 置 就 会 有 问题 








如 图 4-5 所 示 ， 我 们 将 dh 各 行 的 值 写 入 dw 中 idx 指定 的 位 置 。 在 这 种 
情况 下 ，dw 的 第 0 行 会 被 写 人 两 次 。 这 样 一 来 ， 其 中 某 个 值 就 会 被 覆盖 掉 。 
为 了 解决 这 个 重复 问题 需要 进行 “加 法 ”， 而 不 是 “ 写 入 ”( 请 读者 考 
虑 一 下 为 什么 是 加 法 )。 也 就 是 说 ， 应 该 把 dh 各 行 的 值 累 加 到 dw 的 对 应 行 
中 。 下 面 ， 我 们 来 实现 正确 的 反 向 传播 。 












































def backward(self, dout): 
dW, = self.grads 
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for i, word id in enumerate(self.idx): 
dw[word id] += dout[i] 

# 或 者 

# np.add.at(dW, self.idx, dout) 


return None 














这 里 ， 我 们 使 用 for 循环 语句 将 梯度 累加 到 对 应 索引 上 。 这 样 一 来 ， 即 
fii idx 中 出 现 了 重复 的 索引 ， 也 能 被 正确 处 理 。 此 外 ， 这 里 使 用 for 循环 语 
名 的 实现 也 可 以 通过 NumPy 的 np.add.at() 进行 。np.add.at(A，idx，B) 将 
B 加 到 A 上 ， 此 时 可 以 通过 idx 指定 A 中 需要 进行 加 法 的 行 。 










































































通常 情况 下 ，NumPy 的 内 置 方法 比 Python 的 for 循环 处 理 更 快 。 
这 是 因为 NumPy 的 内 置 方法 在 底层 做 了 高 速 化 和 提高 处 理 效 率 的 
优化 。 因 此 ， 上 面 的 代码 如 果 使 用 np.add.at() 来 实现 ， 效 率 会 比 
使 用 for 循环 处 理 高 得 多 。 









































































































































关于 Embedding 层 的 实现 就 介绍 到 这 里 。 现 在 ， 我 们 可 以 将 word2vec 
( CBOW 模型 ) 的 实现 中 的 输入 侧 的 MatMul 层 换 成 Embedding 层 。 这 样 
一 来 ， 既 能 减少 内 存 使 用 量 ， 又 能 避免 不 必要 的 计算 。 
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下 面 ， 我 们 来 进行 word2vec 的 第 2 个 改进 。 如 前 所 述 ，word2vec 的 另 
一 个 瓶颈 在 于 中 间 层 之 后 的 处 理 ， 即 矩阵 乘积 和 Softmax 层 的 计算 。 本 节 的 
目标 就 是 解决 这 个 瓶 虎 。 这 里 ， 我 们 将 采用 名 为 负 采 样 ( negative sampling ) 
的 方法 作为 解决 方案 。 使 用 Negative Sampling 替代 Softmax， 无 论 词汇 量 
有 多 大 ， 都 可 以 使 计算 量 保持 较 低 或 恒定 。 

本 节 的 内 容 有 些 复杂 ， 特 别 是 实现 方面 会 有 点 “纠结 ”。 因 此 ， 我 们 会 
一 个 知识 点 一 个 知识 点 地 确认 ， 一 步 一 步 地 前 进 。 
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42. 中 间 层 之 后 的 计算 问题 

为 了 指出 中 间 层 之 后 的 计算 问题 ， 和 上 一 节 一 样 ， 我 们 来 考虑 词汇 量 为 
100 万 个 、 中 间 层 的 神经 元 个 数 为 100 个 的 wod2vec ( CBOW 模型 )。 此 时 ， 
word2vec 进行 的 处 理 如 图 4-6 所 示 。 
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4-6 词汇 量 为 100 万 个 时 的 word2vec: 上 下 文 是 you 和 goodbye， 目 标 词 是 say 





如 图 4-6 所 示 ， 输 入 层 和 输出 层 有 100 万 个 神经 元 。 在 上 一 节 中 ， 通 过 
引入 Embedding 层 ， 节 省 了 输入 层 中 不 必要 的 计算 。 剩 下 的 问题 就 是 中 间 
层 之 后 的 处 理 。 此 时 ， 在 以 下 两 个 地 方 需要 很 多 计算 时 间 。 





e 中 间 层 的 神经 元 和 权重 矩阵 (Wout) 的 乘积 
e Softmax 层 的 计算 
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第 1 个 问题 在 于 巨大 的 矩阵 乘积 计算 。 在 上 面 的 例子 中 ， 中 间 层 向 量 的 
大 小 是 100， 权 重 矩 阵 的 大 小 是 100 x 1000 000 万 ， 如 此 巨大 的 矩阵 乘积 
计算 需要 大 量 时 间 ( 也 需要 大 量 内 存 )。 此 外 ， 因 为 反 向 传播 时 也 要 进行 同 
样 的 计算 ， 所 以 很 有 必要 将 矩阵 乘积 计算 “ 轻 量化 ”。 

其 次 ，Softmax 也 会 发 生 同 样 的 问题 。 换 名 话说 ， 随 着 词汇 量 的 增加 ， 
Softmax 的 计算 量 也 会 增加 。 观 察 Softmax 的 公式 ， 就 可 以 清楚 地 看 出 这 
—Rio 








_ exp(sk) 
Yk = 1000000 (4.1) 


> exp(si) 


i—1 





3X (4.1) 是 第 个 元 素 (单词 ) 的 Softmax 的 计算 式 (各 个 元 素 的 得 分 
为 s1, s2,.… )。 因 为 假定 词汇 量 是 100 万 个 ， 所 以 式 (4.1) 的 分 母 需要 进行 
100 万 次 的 exp 计算 。 这 个 计算 也 与 词汇 量 成 正比 ， 因 此 ， 需 要 一 个 可 以 蔡 
代 Softmax 的 “ 轻 量 ”的 计算 。 





42.2 ”从 多 分 类 到 二 分 类 

下 面 ， 我 们 来 解释 一 下 负 采 样 。 这 个 方法 的 关键 思想 在 于 二 分 类 
(binary classification )， 更 准确 地 说 ， 是 用 二 分 类 拟 合 多 分 类 (multiclass 
classification )， 这 是 理解 负 采 样 的 重点 。 

到 目前 为 止 ， 我 们 处 理 的 都 是 多 分 类 问题 。 拿 刚才 的 例子 来 说 ， 我 们 把 
它 看 作 了 从 100 万 个 单词 中 选择 1 个 正确 单词 的 任务 。 那 么 ， 可 不 可 以 将 这 
个 问题 处 理 成 二 分 类 问题 呢 ? 更 确切 地 说 ， 我 们 是 否 可 以 用 二 分 类 问题 来 拟 


合 这 个 多 分 类 问题 呢 ? 


二 分 类 处 理 的 是 答案 为 "Yes/No 的 问题 。 诸如,“ 这 个 数字 是 
7 吗 ?”“ 这 是 猫 吗 ?”“ 目 标 词 是 say 吗 ?” 等 ,这 些 问题 都 可 以 用 
LIN 


“Yes/No” 来 回答 。 
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到 目前 为 止 ， 我 们 已 经 做 到 了 当 给 定 上 下 文 时 ， 以 较 高 的 概率 预测 出 作 
为 正确 解 的 单词 。 比 如 ， 当 给 定 you 和 goodbye 时 ， 使 神经 网 络 预测 出 单 
词 say 的 概率 最 高 。 如 果 学 习 进 展 顺利 ， 神 经 网 络 就 可 以 进行 正确 的 预测 。 
换 句 话说 ， 对 于 “ 当 上 下 文 是 you 和 goodbye 时 ， 目 标 词 是 什么 ?” 这 个 问 
题 ， 神 经 网 络 可 以 给 出 正确 答案 。 

现在 ， 我 们 来 考虑 如 何 将 多 分 类 问题 转化 为 二 分 类 问题 。 为 此 ， 我 们 先 
考察 一 个 可 以 用 “Yes/No” 来 回答 的 问题 。 比 如 ， 让 神经 网 络 来 回答 “ 当 
上 下 文 是 you 和 goodbye 时 ， 目 标 词 是 say 吗 ?” 这 个 问题 ， 这 时 输出 层 只 
需要 一 个 神经 元 即 可 。 可 以 认为 输出 层 的 神经 元 输出 的 是 say 的 得 分 。 

那么 ， 此 时 CBOW 模型 进行 什么 样 的 处 理 呢 ? 用 图 来 表示 的 话 ， 可 以 
夯 出 图 4-7。 




































































you 1 
say 0 say 对 应 的 列 向 量 
goodbye 0 
and 0 
i | ——. Sigmoid 
Wi | g 
(1 000 000x100) | o = e 
0 ( ) 
= 一 一 Woutl:s1] 概率 
(100x1) 
you 0 
W i 
say 0 . 
(1 000 000x100) /中间 层 
goodbye 1 
and EP 
"m Ü 输出 层 
( 得 分 ) 
0 
输入 层 
(上 下 文 ) 











图 4-7 仅 计 算 目 标 词 的 得 分 的 神经 网 络 
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如 图 4-7 所 示 ， 输 出 层 的 神经 元 仅 有 一 个 。 因 此 ， 要 计算 中 间 层 和 输出 
侧 的 权重 矩阵 的 乘积 ， 只 需要 提取 say 对 应 的 列 〈 单 词 向 量 )， 并 用 它 与 中 
间 层 的 神经 元 计算 内 积 即 可 。 这 个 计算 的 详细 过 程 如 图 4-8 所 示 。 
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4-8 计算 say 对 应 的 列 向 量 和 中 间 层 的 内 积 (图 中 的 “dot ” 指 内 积 运算 ) 





如 图 4-8 所 示 ， 输 出 侧 的 权重 Wout 中 保存 了 各 个 单词 ID 对 应 的 单词 
向 量 。 此 处 ,我们 提取 say 这 个 单词 向 量 ， 再 求 这 个 向 量 和 中 间 层 神经 元 的 
内 积 ， 这 就 是 最 终 的 得 分 。 


到 目前 为 止 ， 输 出 层 是 以 全 部 单词 为 对 象 进行 计算 的 。 这 里 ， 我 们 
仅 关 注 单 词 say， 计 算 它 的 得 分 。 然 后 ， 使 用 sigmoid 函数 将 其 转化 


为 概率 。 
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4.2.3 sigmoid AAFIN RE 

要 使 用 神经 网 络 解决 二 分 类 问题 ， 需 要 使 用 sigmoid 函数 将 得 分 转化 为 
概率 。 为 了 求 损失 ， 我 们 使 用 交叉 彤 误差 作为 损失 函数 。 这 些 都 是 二 分 类 神 
经 网 络 的 老 套路 。 











142 ”| 第 4 章 ”word2vec 的 高 速 化 



















































































kB 








a 输出 层 使 用 Softmax 函数 将 得 分 转化 为 概率 ， 损 
KRURA LRE. 。 在 二 分 类 的 情况 sigmoid 函数 ， 


TRACER PB o 














这 里 我 们 先 回 顾 一 下 sigmoid 函数 ， 如 下 式 所 示 : 


1 


1 十 exp( 一 Z) e 


y- 
式 (4.2) 的 图 像 如 图 4-9 中 的 右 图 所 示 。 从 图 中 可 以 看 出 ，sigmoid FR 
数 呈 SS 形 ， 输 入 值 zx 被 转化 为 0 到 1 之 间 的 实数 。 这 里 的 要 点 是 ，sigmoid 
函数 的 输出 y 可 以 解释 为 概率 。 
另外 ， 与 sigmoid 函数 相关 的 Sigmoid 层 已 经 实现 好 了 ， 如 网 4-9 中 的 
左 图 所 示 。 


























1.0 一 一 一 一 | 
P dd 
0.8 
0.6 
T y " 0.6 
-——————— Sigmoid 2————— 04 
ƏL ƏL ` 
l=) Lm 
Əy dy 0.2 
0.0|- 一 一 
= 

















图 4-9 ”Sigmoid 层 ( 左 图 ) 和 sigmoid 函数 ( 右 图 ) 的 图 像 


级 数 得 到 概率 y 后 ， 可 以 由 概率 y 计算 损失 。 与 多 分 类 一 
KAIR PRU IE SC LRE, HARU Bra : 


通过 sigmoid 


样 ， 用 于 sigmoid 


T 


L = —(tlog y + (1—t) log (1—y)) (4.3) 








Hp, y Æ sigmoid 函数 的 输出 , 上 是 正确 解 标签 ， 取 值 为 0 或 1: 取 值 为 1 
时 表示 正确 解 是 “Yes”; 取 值 为 0 时 表示 正确 解 是 “No”。 因 此 ， 当 t 为 1 时 ， 
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输出 —logy; 当 t 为 0 时 ,输出 一 log (1 一 y)o 





二 分 类 和 多 分 类 的 损失 函数 均 为 交叉 业 误 差 ， 其 数学 式 分 别 为 式 
(4.3) 和 式 (1.7)。 不 过 ， 它 们 只 是 写法 不 同 而 已 ， 实 际 上 表示 的 
内 容 是 一 样 的 。 确 切 地 说 ， 在 多 分 类 的 情况 下 ， 如 果 输 出 层 只 有 
两 个 神经 元 , 则 式 (1.7) 和 二 分 类 的 式 (4.3) 是 完全 一 致 的 。 因 此 ， 
Sigmoid with Loss 层 的 实现 只 要 在 Softmax with Loss 层 的 基 
础 上 稍 加 改动 即 可 。 





























































































































下 面 ， 我 们 用 图 来 表示 Sigmoid 层 和 Cross Entropy Error 层 ， 如 网 
4-10 所 示 。 
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4-10 Sigmoid 层 和 Cross Entropy Error 层 的 计算 图 。 右 图 整合 为 了 Sigmoid 
with Loss 层 








图 4-10 中 值得 注意 的 是 反 向 传播 的 y 一 t+ 这 个 值 。y 是 神经 网 络 输出 的 
概率 ，t 是 正确 解 标 签 ，y 一 t+ 正好 是 这 两 个 值 的 差 。 这 意味 着 ， 当 正确 解 标 
签 是 1 时 ， 如 果 y 尽 可 能 地 接近 1 (10096), 误差 将 很 小 。 反 过 来 ， 如果 
远离 1， 误差 将 增 大 。 随 后 ， 这 个 误差 向 前 面 的 层 传播 ， 当 误差 大 时 ， 模 型 
学 习 得 多 ; 当 误差 小 时 ， 模 型 学 习 得 少 下 。 


















































(D 也 就 是 说 ,误差 越 大 ， 模 型 参数 的 更 新 力度 就 越 大 。 一 一 译 者 注 
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sigmoid 函数 和 交叉 炳 误差 的 组 合 产 生 了 wy 一 t+ 这 样 一 个 漂亮 的 结果 。 




















同样 地 ，Softmax RAAI RABS, RAER RAA 
反 





误差 的 组 合 也 会 在 





向 传播 时 传播 y — to 

















424 多 分 类 到 二 分 类 的 实现 





下 面 ， 我 们 从 实现 的 角度 把 之 前 讲 的 内 容 整 理 一 下 。 前 面 我 们 处 理 了 
多 分 类 问题 ， 在 输出 层 使 用 了 与 词汇 量 同 等 数量 的 神经 元 ， 并 将 它们 传 给 了 
Softmax 层 。 如 果 把 重点 放 在 “ 层 ” 和 “计算 ”上 ， 则 此 时 的 神经 网 络 可 以 

















画 成 图 4-11。 
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4-11 ”进行 多 分 类 的 CBOW 模型 的 全 貌 图 (Embedding 层 记 为 Bmbed) 











图 4-11 中 展示 了 上 下 文 是 you 和 goodbye、 作 为 正 而 





解 的 目标 词 是 








say 的 例子 (假定 you 的 单词 ID 是 0，say 的 单词 ID Æ 1, 














goodbye 的 单 





i ID 是 2)。 在 输入 层 中 ， 为 了 提取 单词 ID 对 应 的 分 布 式 表 示 ， 使 用 了 


Embedding 层 。 
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上 一 节 ， 我 们 实现 了 Embedding 层 ， 该 层 提取 单词 ID 对 应 的 分 
布 式 表示 (单词 向 量 )。 以 前 我 们 用 的 是 MatMul 层 。 





















































现在 ,我 们 将 图 4-11 中 的 神经 网 络 转化 成 进行 二 分 类 的 神经 网 络 ， 网 
络 结构 如 图 4-12 所 示 。 
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4-12 ”进行 二 分 类 的 CBOW tR!BS $E] 











这 里 ， 将 中 间 层 的 神经 元 记 为 h， 并 计算 它 与 输出 侧 权 重 Wout 中 的 单 
词 say 对 应 的 单词 向 量 的 内 积 。 人 然后， 将 其 输出 输入 Sigmoid with Loss 层 ， 
得 到 最 终 的 损失 。 












































在 图 4-12 中 ,向 Sigmoid with Loss 层 输入 正确 解 标签 1， 这 意 
味 着 现在 正在 处 理 的 问题 的 答案 是 Yes”。 当 答案 是 “No” 时 ， 
向 Sigmoid with Loss 层 输入 0。 






































为 了 便于 理解 后 面 的 内 容 ， 我 们 把 图 4-12 的 后 半 部 分 进一步 简化 。 为 
此 ,我 们 引入 Embedding Dot 层 ， 该 层 将 图 4-12 中 的 Embedding 层 和 dot 
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运算 〈 内 积 ) 合并 起 来 处 理 。 使 用 这 个 层 ， 图 4-12 的 后 半 部 分 可 以 画 成 
图 4-13。 
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图 4-13 ”只 关注 图 4-12 的 中 间 层 之 后 的 处 理 。 使 用 Embedding Dot RAH Embedding 
层 和 内 积 运 算 





中 间 层 的 神经 元 h 流 经 Embedding Dot 层 ， 传 给 Sigmoid with Loss 
层 。 从 图 中 可 以 看 出 ,使 用 Embedding Dot 层 之 后 ， 中 间 层 之 后 的 处 理 被 
简化 了 。 

下 面 ， 我 们 简单 地 看 一 下 Embedding Dot 层 的 实现 ， 这 里 我 们 将 这 个 
层 实 现 为 EmbeddingDot 类 (= ch04/negative sampling layer.py )。 























class EmbeddingDot: 
def | init (self, W): 
self.embed - Embedding(W) 
self.params = self.embed.params 
self.grads = self.embed.grads 


self.cache = None 
def forward(self, h, idx): 
target W = self.embed.forward(idx) 


out - np.sum(target W * h, axis-1) 


self.cache - (h, target W) 
return out 


4. 
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def backward(self, dout): 
h, target W = self.cache 
dout = dout.reshape(dout.shape[0], 


dtarget W - dout * h 
self.embed.backward(dtarget W) 
dh = dout * target W 

return dh 





1) 


EmbeddingDot 类 共有 4 个 成 员 变 量 : embed, params, grads 和 cache, JR 
据 本 书 的 代码 规范 ，params 保存 参数 ，grads 保存 梯度 。 另 外 ， 作 为 缓存 ， 


embed 保存 Embedding 层 ，cache 保存 正 向 传播 时 的 计算 结果 。 

















正 向 传播 的 forward(h, idx) 方法 的 参数 接收 中 间 层 的 神经 元 (h ) 和 单 
词 ID 的 NumPy 数组 (idx )。 这 里 ，idx 是 单词 ID 列表 ， 这 是 因为 我 们 假 





定 了 对 数据 进行 mini-batch 处 理 。 











在 上 面 的 代码 中 ，forward() 方法 首先 调 
方法 ， 然 后 通过 np.sum(self. target W * h, 





] Embedding 层 的 forward (idx) 
axis-1) 计算 内 积 。 通 过 观察 具 


体 值 来 理解 这 个 实现 会 比较 快 ， 如 图 4-14 所 示 。 








embed = Embedding(W) 
— = embed.forward(idx) 





Ww idx target W | ER 
[LO 1 2] [031] ILO 1 2] | [I012] 
[3 4 5] [ 9 10 11] [34 5] 
[67 8] [3.4 5]] [6 7 8]] 
[ 9 10 11] 

[12 13 14] 
[15 16 17] 


[18 19 20]] 





target W*h - out 
[[0 1 4  [ 512 86] 
[27 40 55] 
[18 28 40]] 








图 4-14 Embedding Dot 层 中 各 个 变量 的 值 


如 图 4-14 所 示 ， 准 备 适当 的 WwW、h 和 idx, 


个 例子 表示 mini-batch 一 并 处 理 3 笔 数 据 。 
target W 将 提取 出 w 的 第 0 行 、 第 3 行 和 第 1 











这 里 ，idx 是 [0，3，1]， 这 
因为 idx Œ [0, 3, 1], PFU 
行 。 另 外 ，target W * h 计算 
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对 应 元 素 的 乘积 (NumPy 的 “*” 计 算 对 应 元 素 的 乘积 )。 然 后 ， 对 结果 逐 
ff (axis=1) 进行 求 和 ， 得 到 最 终 的 结果 out; 

以 上 就 是 对 Embedding Dot 层 的 正 向 传播 的 介绍 。 反 向 传播 以 相反 的 
顺序 传播 梯度 ， 这 里 我 们 省 略 对 其 实现 的 说 明 ( 并 不 是 特别 难 ， 请 大 家 自己 
思考 )。 


























4.2.5” 负 采样 

至 此 ， 我 们 成 功 地 把 要 解决 的 问题 从 多 分 类 问题 转化 成 了 二 分 类 问题 。 
但 是 ， 这 样 问题 就 被 解决 了 吗 ? 很 遗憾 ， 事 实 并 非 如 此 。 因 为 我 们 目前 仅 学 
习 了 正 例 (正确 答案 )， 还 不 确定 负 例 ( 错误 答案 ) 会 有 怎样 的 结果 。 

现在 ， 我 们 再 来 思考 一 下 之 前 的 例子 。 在 之 前 的 例子 中 ， 上 下 文 是 you 
和 goodbye， 目 标 词 是 say。 我 们 到 目前 为 止 只 是 对 正 例 say 进行 了 二 分 类 ， 
如 果 此 时 模型 有 “好 的 权重 "， 则 Sigmoid 层 的 输出 (概率 ) 将 接近 1。 用 
计算 图 来 表示 此 时 的 处 理 ， 如 图 4-15 所 示 。 
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h 加 -p Embedding, -» Sigmoid —————» 0 993 
Š . 








Wout 

















4-15 CBOW 模型 的 中 间 层 之 后 的 处 理 : 上 下 文 是 you 和 goodbye， 此 时 目标 词 是 
say [91513873 0.993 (99.3%) 





当前 的 神经 网 络 只 是 学 习 了 正 例 say， 但 是 对 say 之 外 的 负 例 一 无 所 知 。 
而 我 们 真正 要 做 的 事情 是 ， 对 于 正 例 (say), fii Sigmoid 层 的 输出 接近 1; 
对 于 负 例 (say 以 外 的 单词 )， 使 Sigmoid 层 的 输出 接近 0。 用 图 来 表示 ， 如 
图 4-16 所 示 。 
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4-16 如 果 say 是 正 例 (正确 答案 )， 则 当 输 入 say 时 使 Sigmoid 层 的 输出 接近 1， 当 输 
入 say 以 外 的 单词 时 使 输出 接近 0， 我 们 要 求 的 是 这 样 的 权重 


比如 ， 当 上 下 文 是 you 和 goodbye 时 ， 我 们 希望 目标 词 是 hello ( 错误 
答案 ) 的 概率 较 低 。 在 图 4-16 中 ， 目 标 词 是 hello 的 概率 为 0.021 ( 2.196), 
我 们 要 求 的 就 是 这 种 能 使 输出 接近 0 的 权重 。 


为 了 把 多 分 类 问题 处 理 为 二 分 类 问题 , 对 于 “正确 答案 ”( 正 例 ) 和 “ 错 
误 答案 ”( 负 例 )， 都 需要 能 够 正确 地 进行 分 类 (二 分 类 )。 因 此 ， 需 要 


同时 考虑 正 例 和 负 例 。 




































































那么 ， 我 们 需要 以 所 有 的 负 例 为 对 象 进行 学 习 吗 ? 答案 显然 是 “No”。 
如 果 以 所 有 的 负 例 为 对 象 ， 词 汇 量 将 暴 增 至 无 法 处 理 ( 更 何况 本 章 的 目的 本 
来 就 是 解决 词汇 量 增加 的 问题 )。 为 此 ， 作 为 一 种 近似 方法 ， 我 们 将 选择 若 
干 个 (5 个 或 者 10 个 ) 负 例 ( 如 何 选择 将 在 下 文 介绍 )。 也 就 是 说 ， 只 使 用 
少数 负 例 。 这 就 是 负 采 样 方 法 的 含义 。 

总 而 言 之 ， 负 采样 方法 既 可 以 求 将 正 例 作为 目标 词 时 的 损失 ， 同 时 也 可 
以 采样 ( 选 出 ) 若干 个 负 例 ， 对 这 些 负 例 求 损失 。 然 后 ， 将 这 些 数据 〈 正 例 
和 采样 出 来 的 负 例 ) 的 损失 加 起 来 ， 将 其 结果 作为 最 终 的 损失 。 

下 面 ， 让 我 们 结合 具体 的 例子 来 说 明 。 这 里 使 用 与 之 前 相同 的 例子 ( 正 
例 目标 词 是 say )。 假 设 选 取 2 个 负 例 目标 词 hello 和 i， 此 时 ， 如 果 我 们 只 
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关注 CBOW 模型 的 中 间 层 之 后 的 部 分 ， 则 负 和 采样 的 计算 图 如 图 4-17 所 示 。 
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图 4-17 负 采 样 的 例子 (只 关注 中 间 层 之 后 的 处 理 ， 画 出 基于 层 的 计算 图 ) 


图 4-17 中 需要 注意 的 是 对 正 例 和 负 例 的 处 理 。 正 例 (say ) 和 之 前 一 样 ， 











向 Sigmoid with Loss 58 A 1E fj 








误 答 案 ， 所 以 要 向 Sigmoid with 











Loss 层 输入 正厅 





数据 的 损失 相 加 ， 作 为 最 终 损 失 输出 。 








和 解 标签 1; 而 因为 负 例 (hello 和 i) 是 错 
上 解 标 签 0。 此 后 ， 将 各 个 
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4.2.6 ” 负 采 样 的 采样 方法 


下 面 我 们 来 看 一 下 如 何 抽 取 负 例 。 关 于 这 一 点 ， 基 于 语料库 的 统计 数据 
进行 采样 的 方法 比 随机 抽样 要 好 。 具 体 来 说 ， 就 是 让 语料库 中 经 常 出 现 的 单 
词 容易 被 抽 到 ， 让 语料库 中 不 经 常 出 现 的 单词 难以 被 抽 到 。 

基于 语料库 中 单词 使 用 频率 的 采样 方法 会 先 计 算 语 料 库 中 各 个 单词 的 出 
现 次 数 ， 并 将 其 表示 为 “概率 分 布 "， 然 后 使 用 这 个 概率 分 布 对 单词 进行 采 
样 ( 图 418)。 
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图 4-18 根据 概率 分 布 多 次 进行 采样 的 例子 


基于 语料库 中 各 个 单词 的 出 现 次 数 求 出 概率 分 布 后 ， 只 需 根据 这 个 概率 
分 布 进行 采样 就 可 以 了 。 通 过 根据 概率 分 布 进行 采样 ,语料库 中 经 常 出 现 的 
单词 将 容易 被 抽 到 ， 而 “稀有 单词 ”将 难以 被 抽 到 。 


` 


下 面 ， 我 们 使 用 Python 来 说 明基 于 概率 分 布 的 采样 。 为 此 ， 可 以 使 用 
NumPy 的 np. random.choice() 方法 。 这 里 我 们 结合 几 个 具体 的 例子 来 看 一 
下 这 个 方法 的 用 法 。 





























E 























负 采 样 应 当 尽 可 能 多 地 覆盖 负 例 单词 , 但 是 考虑 到 计算 的 复杂 度 ， 
必要 将 负 例 限定 在 较 小 范围 内 (5 个 或 者 10 个 )。 这里， 如 果 只 选 
择 稀 有 单词 作为 负 例会 怎样 呢 ? 结果 会 很 糟糕 。 因 为 在 现实 问题 中 ， 


稀有 单词 基本 上 不 会 出 现 。 也 就 是 说 ， 处 理 稀有 单词 的 重要 性 较 低 。 
相反 ， 处 理 好 高 频 单词 才能 获得 更 好 的 结果 。 
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>>> import numpy as np 


# 从 0 到 9 的 数字 中 随机 选择 一 个 数字 
>>> np.random.choice(10) 

7 

>>> np.random.choice(10) 

2 


# 从 words 列表 中 随机 选择 一 个 元 素 
>>> words = ['you', 'say', 'goodbye', 'I', 'hello', '.'] 
>>> np.random.choice(words) 


'goodbye' 


3 有 放 回 采样 5 次 
>>> np.random.choice(words, size=5) 





array(['goodbye', '.', 'hello', 'goodbye', 'say'], 
dtypez'«U7') 








# 无 放 回采 样 5 次 


>>> np.random.choice(words, size-5, replace-False) 











array(['hello', '.', 'goodbye', 'I', 'you'], 
dtypez'«U7') 


# 基于 概率 分 布 进行 采样 
>>> p = [0.5, 0.1, 0.05, 0.2, 0.05, 0.1] 


>>> np.random.choice(words, p-p) 





' you' 


如 上 所 示 ，np.random.choice() 可 以 用 于 随机 抽样 。 如 果 指 定 size 参数 ， 
将 执行 多 次 采样 。 如 果 指 定 replace=False， 将 进行 无 放 回 采样 。 通 过 给 参 
数 p 指定 表示 概率 分 布 的 列表 ， 将 进行 基于 概率 分 布 的 采样 。 剩 下 的 就 是 使 
用 这 个 函数 抽取 负 例 。 

word2vec 中 提出 的 负 采 样 对 刚才 的 概率 分 布 增加 了 一 个 步骤 。 如 式 (4.4) 
所 示 ， 对 原来 的 概率 分 布 取 0.75 次 方 。 
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(4.4) 





这 里 ，P(wi) 表示 第 i 个 单词 的 概率 。 式 (4.4). 只 是 对 原来 的 概率 分 布 的 各 
个 元 素 取 0.75 次 方 。 不过， 为 了 使 变换 后 的 概率 总 和 仍 为 1， 分 母 需要 变 成 
“变换 后 的 概率 分 布 的 总 和 ”。 

那么 ， 为 什么 我 们 要 进行 式 (4.4) 的 变换 呢 ? 这 是 为 了 防止 低频 单词 被 
忽略 。 更 准确 地 说 ， 通 过 取 0.75 次 方 ， 低 频 单 词 的 概率 将 稍微 变 高 。 我 们 
来 看 一 个 具体 例子 ， 如 下 所 示 。 



































>>> p = [0.7, 0.29, 0.01] 

>>> new p = np.power(p, 0.75) 

>>> new p /= np.sum(new p) 

>>> print(new p) 

[ 0.64196878 0.33150408 0.02652714] 


根据 这 个 例子 ， 变 换 前 概率 为 0.01 (196) 的 元 素 ， 变 换 后 为 0.026... 
(2.6...%%)。 通过 这 种 方式 ， 取 0.75 次 方 作 为 一 种 补救 措施 ， 使 得 低频 单词 
稍微 更 容易 被 抽 到 。 此 外 ，0.75 这 个 值 并 没有 什么 理论 依据 ， 也 可 以 设置 成 
0.75 以 外 的 值 。 

如 上 所 示 ， 负 采样 从 语料库 生成 单词 的 概率 分 布 ， 在 取 其 0.75 次 方 之 
后 ， 再 使 用 之 前 的 np. random. choice) 对 负 例 进行 采样 。 本 书 中 将 这 些 处 理 
实现 为 了 UnigramSampler 类 。 这 里 仅 简 单 说 明 unigramsampter 类 的 使 用 方法 ， 
其 具体 实现 在 ch64/negative sampling layer.py 中 ， 对 细节 感 兴趣 的 读者 可 
以 参考 一 下 。 


unigram 是 “1 个 (连续 ) 单 词 " 的 意思 。 同样 地 ，bigram 是 “2 
个 连续 单词 " 的 意思 ，trigram 是 “3 个 连续 单词 " 的 意思 。 这 里 
AA 使 用 Unigransampter 这 个 名 字 ， 是 因为 我 们 以 1 个 单词 为 对 象 创 


建 概率 分 布 。 如 果 是 bigram,， 则 以 (you ，say )、( you ， 
‘goodbye’ ) 这 样 的 2 个 单词 的 组 合 为 对 象 创建 概率 分 布 。 
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在 进行 初始 化 时 ，UnigramSampler 类 取 3 个 参数 ， 分 别 是 单词 ID 列表 
格式 的 corpus、 对 概率 分 布 取 的 次 方 值 power. ( 默认 值 是 0.75 ) 和 负 例 的 采 
样 个 数 sample size, UnigramSampler 类 有 get negative sample(target) 方法 ， 
该 方法 以 参数 target 指定 的 单词 ID 为 正 例 ， 对 其 他 的 单词 ID 进行 采样 。 
下 面 ， 我 们 来 看 一 个 简单 的 UnigramSampler 类 的 使 用 示例 。 





TF 




















corpus = np.array([0, 1, 2, 3, 4, 1, 2, 3]) 
power = 0.75 
sample size - 2 


sampler = UnigramSampler(corpus, power, sample size) 
target = np.array([1, 3, 0]) 

negative sample - sampler.get negative sample(target) 
print(negative sample) 

# [[0 3] 

* [12] 

# [2 3]] 





这 里 ， 考 虑 将 I, 3, 01 这 3 个 数据 的 mini-batch 作为 正 例 。 此 时 ， 对 
各 个 数据 采样 2 个 负 例 。 在 上 面 的 例子 中 ， 可 知 第 1 个 数据 的 负 例 是 0, 31, 
第 2 个 是 [1, 2] ,第 3 个 是 [2，3]。 这 样 一 来 ， 我 们 就 完成 了 负 有 采样。 








4.2.7” 负 采样 的 实现 


最 后 ， 我 们 来 实现 负 采 样 。 我 们 把 它 实现 为 NegativeSampLingLoss 类 ， 
首先 从 初始 化 开始 (e ch04/negative sampling layer.py )。 


class NegativeSamplingLoss: 
def | init (self, W, corpus, power-0.75, sample size-5): 
self.sample size - sample size 
self.sampler - UnigramSampler(corpus, power, sample size) 
self.loss layers = [SigmoidWithLoss() for _ in range(sample size 
— +1)] 
self.embed dot layers - [EmbeddingDot(W) for in 


—  range(sample size + 1)] 
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self.params, self.grads = [], [] 

for layer in self.embed dot layers: 
self.params += layer.params 
self.grads += layer.grads 


初始 化 的 参数 有 表示 输出 侧 权重 的 w、 语 料 库 〈 单 词 ID 列表 ) corpus, 


概率 分 布 的 次 方 值 power 和 负 例 的 采样 数 sample_size。 这 里 ， 生 成 上 一 节 所 
说 的 Unigramsampler 类 ， 并 使 用 成 员 变量 sampler 保存 。 另 外 ， 将 负 例 的 采 
样 数 设置 为 成 员 变 量 sample size, 























成 员 变 量 loss layers 和 embed dot layers 中 以 列表 格式 保存 了 必要 的 











层 。 在 这 两 个 列表 中 生成 sample size + 1 个 层 ， 这 是 因为 需要 生成 一 个 正 


例 
j 





TH 














] 的 层 和 sample size 个 负 例 用 的 层 。 这 里 ， 我 们 假设 列表 的 第 一 个 层 处 





























正 例 。 也 就 是 说 ，Loss_Layers[0] 和 embed dot layers[0] 是 处 理 正 例 的 层 。 
然后 ， 将 embed dot. layers 层 使 用 的 权重 和 梯度 分 别 保存 在 数组 中 。 下 面 ， 























我 们 给 出 正 向 传播 的 实现 (= ch04/negative_sampling_layer.py )。 





def forward(self, h, target): 


batch size = target.shape[0] 
negative sample - self.sampler.get negative sample(target) 


3: 正 例 的 正 向 传播 

Score = self.embed dot layers[0].forward(h, target) 
correct label = np.ones(batch size, dtype-np.int32) 

loss = self.loss layers[0].forward(score, correct label) 


# 负 例 的 正 向 传播 

negative label = np.zeros(batch size, dtype=np.int32) 

for i in range(self.sample size): 
negative target - negative sample[:, i] 
score = self.embed dot layers[1 + i].forward(h, negative target) 
loss += self.loss layers[1 + i].forward(score, negative label) 


return loss 





forward(h, target) 方法 接收 的 参数 是 中 间 层 的 神经 元 h 和 正 例 目标 














词 target。 这 里 进行 的 处 理 是 ， 首 先 使 用 self.sampler 采样 负 例 ， 并 设 为 
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negative_sample。 然 后 ， 分 别 对 正 例 和 负 例 的 数据 进行 正 向 传播 ， 求 损失 的 
Mo BEMA, M Embedding Dot 层 的 forward 输出 得 分 ， 再 将 这 个 得 
分 和 标签 一 起 输入 Sigmoid with Loss 层 来 计算 损失 。 这 里 需要 注意 的 是 ， 
正 例 的 正确 解 标签 为 1， 负 例 的 正确 解 标 签 为 0。 

最 后 ， 我 们 来 看 反 向 传播 的 实现 。 


























def backward(seLf，dout=1) : 
dh = 0 
for 10, l1 in zip(self.loss layers, self.embed dot layers): 
dscore = l0.backward(dout) 
dh += l1.backward(dscore) 
return dh 


反 向 传播 的 实现 非常 简单 ， 只 需要 以 与 正 向 传播 相反 的 顺序 调用 各 层 的 
backward() 函数 即 可 。 在 正 向 传播 时 ， 中 间 层 的 神经 元 被 复制 了 多 份 ， 这 相 
当 于 1.3.4.3 节 中 介绍 的 Repeat 节点 。 因 此 ， 在 反 向 传播 时 ， 需 要 将 多 份 梯 
度 累 加 起 来 。 以 上 就 是 负 采 样 的 实现 的 说 明 。 








4.3 ”改进 版 Word2vec 的 学 习 


到 目前 为 止 ， 我 们 进行 了 word2vec 的 改进 。 首 先 说 明了 Embedding 
层 ， 又 介绍 了 负 采 样 的 方法 ， 然 后 对 这 两 者 进行 了 实现 。 现 在 我 们 进一步 来 
实现 进行 了 这 些 改 进 的 神经 网 络 ， 并 在 PTB 数据 集 上 进行 学 习 ， 以 获得 更 
加 实用 的 单词 的 分 布 式 表示 。 














43.1 CBOW 模 型 的 实现 

这 里 ,我 们 将 改进 上 一 章 的 简单 的 SimplecBow 类 ， 来 实现 CBOW 模型 。 
改进 之 处 在 于 使 用 Embedding 层 和 Negative Sampling Loss 层 。 此 外 ,我 
们 将 上 下 文部 分 扩展 为 可 以 处 理 任意 的 窗口 大 小 。 

改进 版 的 cBow 类 的 实现 如 下 所 示 。 首 先 ， 我们 来 看 一 下 初始 化 方法 
(= ch04/cbow. py )。 

















4.3 ”改进 版 word2vec 的 学 习 | 


157 





import sys 

sys.path.append('..') 

import numpy as np 

from common.layers import Embedding 


from ch04.negative sampling layer import NegativeSamplingLoss 


class CBOW: 


def | init (self, vocab size, hidden size, window size, corpus): 


V, H = vocab size, hidden size 


3: 初始 化 权重 
W in = 0.01 * np.random.randn(V, H).astype('f') 
W out = 0.01 * np.random.randn(V, H).astype('f') 





# 生成 层 


self.in layers = [] 





for i in range(2 * window size): 
layer = Embedding(W in) # 使 用 Embedding 层 




















N 


self.in layers.append(layer) 


self.ns loss = NegativeSamplingLoss(W out, corpus, power-0.75, 


— sample size-5) 


# 将 所 有 的 权重 和 梯度 整理 到 列表 中 
layers = self.in layers + [self.ns loss] 
self.params, self.grads = [], [1] 
for layer in layers: 
self.params += layer.params 


self.grads += layer.grads 


# 将 单词 的 分 布 式 表示 设置 为 成 员 变量 
self.word vecs = W in 











这 个 初始 化 方法 有 4 个 参数 。vocab_size 是 词汇 量 ，hidden_size 是 中 间 


层 的 神经 元 个 数 ，corpus 是 单词 ID 列表 。 另 外 ， 通 过 window_size 指定 上 下 
文 的 大 小 ， 即 上 下 文 包含 多 少 个 周围 单词 。 如 果 window size 是 2， 则 目标 





词 的 左右 2 个 单词 ( 共 4 个 单词 ) 将 成 为 上 下 文 。 
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在 SimpleCBOW 类 (改进 前 的 实现 ) 中 ,输入 侧 的 权重 和 输出 侧 的 
权重 的 形状 不 同 ， 输 出 侧 的 权重 在 列 方向 上 排列 单词 向 量 。 而 
CBOW 类 的 输出 侧 的 权重 和 输入 侧 的 权重 形状 相同 ， 都 在 行 方向 


上 排列 单词 向 量 。 这 是 因为 NegativeSamplingLoss 类 中 使 用 了 

































































































































































Embedding 层 。 


在 权重 的 初始 化 结束 后 ， 继 续 创 建屋 。 这 里 ,创建 2 * window size 个 
Embedding 层 ， 并 将 其 保存 在 成 员 变 量 in layers 中 。 然 后 ,创建 Negative 
Sampling Loss 层 。 

在 创建 好 层 之 后 ， 将 神经 网 络 中 使 用 的 参数 和 梯度 放 入 成 员 变 量 params 
和 grads 中 。 另 外 ， 为 了 之 后 可 以 访问 单词 的 分 布 式 表 示 ， 将 权重 w_in 设置 
为 成 员 变 量 word_vecs。 下 面 ， 我 们 来 看 一 下 正 向 传播 的 forward() 方法 和 反 
向 传播 的 backward() 方法 (= ch04/cbow.py )。 



























































def forward(self, contexts, target): 
h=0 
for i, layer in enumerate(self.in layers): 
h += layer.forward(contexts[:, il) 
h *= 1 / len(self.in layers) 
loss = self.ns_loss.forward(h, target) 


return loss 


def backward(self, dout=1): 
dout = self.ns_loss.backward (dout) 
dout *= 1 / len(self.in_layers) 
for layer in self.in_layers: 
layer .backward (dout) 


return None 





这 里 的 实现 只 是 按 适 当 的 顺序 调用 各 个 层 的 正 向 传播 (或 反 向 传播 )， 
这 是 对 上 一 章 的 SimptecBow 类 的 自然 扩展 。 不 过 ， 虽然 forward (contexts, 
target) 方法 取 的 参数 仍 是 上 下 文 和 目标 词 ， 但 是 它们 是 单词 ID 形式 的 (上 
一 章 中 使 用 的 是 one-hot 向 量 ， 不 是 单词 ID )， 具 体 示 例如 图 4-19 所 示 。 
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contexts target contexts target 
you, goodbye say | [[0 2 1 
say, and goodbye 单词 ID 13 2 
goodbye, i and 24 3 
and, say i 31 1 
i, hello say 45 1 
say, . hello 1 6]] 5] 














4-19 用 单词 ID 表示 上 下 文 和 目标 词 的 例子 : 这 里 显示 的 是 窗口 大 小 为 1 的 上 下 文 








图 4-19 的 右 侧 显示 的 单词 ID 列表 是 contexts 和 target 的 例子 。 可 以 
看 出 ，contexts 是 一 个 二 维 数组 ，target 是 一 个 一 维 数组 ， 这 样 的 数据 被 输 
入 forward(contexts, target) 中 。 以 上 就 是 CBOw 类 的 说 明 。 











432 CBOW 模 型 的 学 习 代码 





最 后 ， 我 们 来 实现 CBOW 模型 的 学 习 部 分 。 其 实 只 是 复 用 一 下 神经 网 
络 的 学 习 ， 如 下 所 示 (= che4/train.py )。 


import sys 

sys.path.append('..') 

import numpy as np 

from common import config 

* 在 用 GPU 运行 时 ， 请 打开 下 面 的 注释 (需要 cupy) 



































# config.GPU = True 





import pickle 

from common.trainer import Trainer 

from common.optimizer import Adam 

from cbow import CBOW 

from common.util import create contexts target, to cpu, to gpu 
from dataset import ptb 


* 设 定 超 参数 
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DY 


5 
hidden size - 100 
batch size - 100 


max epoch - 10 


window size 


# 读 人 数据 
corpus, word to id, id to word = ptb.load data('train') 


vocab size - len(word to id) 


contexts, target - create contexts target(corpus, window size) 
if config.GPU: 
contexts, target - to gpu(contexts), to gpu(target) 





model - CBOW(vocab size, hidden size, window size, corpus) 
optimizer - Adam() 


trainer - Trainer(model, optimizer) 


# 开始 学 习 
trainer.fit(contexts, target, max epoch, batch size) 


trainer.plot() 











# 保存 必要 数据 ， 以 便 后 续 使 
word vecs = model.word vecs 
if config.GPU: 


word vecs - to cpu(word vecs) 








params = {} 

params['word vecs'] = word vecs.astype(np.float16) 

params['word_to_id'] = word_to_id 

params['id_to_word'] = id_to_word 

pkl_file = 'cbow_params.pkl' 

with open(pkl_file, 'wb') as f: 
pickle.dump(params, f, -1) 


本 次 的 CBOW 模型 的 窗口 大 小 为 5， 隐 藏 展 的 神经 元 个 数 为 100。 虽 








尖 具 体 取决 于 语料库 的 情况 ， 但 是 一 般 而 言 ， 当 窗口 大 小 为 2 ~ 10、 中 间 




















层 的 神经 元 个 数 (单词 的 分 布 式 表示 的 维 数 ) 为 50 ~ 500 时 ， 结 果 会 比较 好 。 
稍 后 我 们 会 对 这 些 超 参数 进行 讨论 。 
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这 次 我 们 利用 的 PTB 语料库 比 之 前 要 大 得 多 ， 因 此 学 习 需 要 很 长 时 间 
( 半天 左右 )。 作 为 一 种 选择 ， 我 们 提供 了 使 用 GPU 运行 的 模式 。 如 果 要 使 
用 GPU 运行 ， 需 要 打开 顶部 的 “# config.GPU = True"。 不 过 ， 使 用 GPU 
运行 需要 有 一 台 安 装 了 NVIDIA GPU 和 CuPy 的 机 器 。 

在 学 习 结束 后 ， 取 出 权重 (输入 侧 的 权重 )， 并 保存 在 文件 中 以 备 后 用 
(用 于 单词 和 单词 ID 之 间 的 转化 的 字典 也 一 起 保存 )。 这 里 ， 使 用 Python 
的 pickle 功能 进行 文件 保存 。pickle 可 以 将 Python 代码 中 的 对 象 保存 到 文 
件 中 (或 者 从 文件 中 读 取 对 象 )。 
































ch94/cbow_params .pkL 中 提供 了 学 习 好 的 参数 。 如 果 不 想 等 学 习 
结束 ， 可 以 使 用 本 书 提 供 的 学 习 好 的 参数 。 根 据 学 习 环境 的 不 同 ， 
学 习 到 的 权重 数据 也 不 一 样 。 这 是 由 权重 初始 化 时 用 到 的 随机 初 
始 值 、mini-bath 的 随机 选取 ， 以 及 负 采 样 的 随机 抽样 造成 的 。 
寻 为 这 些 随机 性 ， 最 后 得 到 的 权重 在 各 自 的 环境 中 会 不 一 样 。 不 
过 宏观 来 看 ， 得 到 的 结果 (趋势 ) 是 类 似 的 。 
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4.33 ” CBOW 模 型 的 评价 


现在 ， 我 们 来 评价 一 下 上 一 节 学 习 到 的 单词 的 分 布 式 表示 。 这 里 我 们 
使 用 第 2 章 中 实现 的 most simitar() 函数 ， 显 示 几 个 单词 的 最 接近 的 单词 
( & ch04/eval.py )。 

















import sys 

sys.path.append('..') 

from common.util import most similar 
import pickle 


pkl file = 'cbow params.pkl' 


with open(pkl file, 'rb') as f: 
params = pickle.load(f) 
word vecs - params['word vecs'] 
word to id - params['word to id'] 
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id to word = params['id to word'] 


querys = ['you', 'year', 'car', 'toyota'] 
for query in querys: 
most similar(query, word to id, id to word, word vecs, top-5) 








运行 上 面 的 代码 ， 可 以 得 以 下 结果 ( 具体 结果 会 根据 各 自 的 学 习 环境 而 
有 所 差异 )。 














[query] you 

we: 0.610597074032 
someone: 0.591710150242 
i: 0.554366409779 
something: 0.490028560162 
anyone: 0.473472118378 


[query] year 

month: 0.718261063099 
week: 0.652263045311 
spring: 0.62699586153 
summer: 0.625829637051 
decade: 0.603022158146 


[query] car 

luxury: 0.497202396393 
arabia: 0.478033810854 
auto: 0.471043765545 
disk-drive: 0.450782179832 
travel: 0.40902107954 


[query] toyota 

ford: 0.550541639328 
instrumentation: 0.510020911694 
mazda: 0.49361255765 

bethlehem: 0.474817842245 
nissan: 0.474622786045 














我 们 看 一 下 结果 。 首 先 ， 在 查询 you 的 情况 下 ， 近 似 单 词 中 出 现 了 人 
称 代 词 1(=I) 和 we 等 。 接 着， 查询 year， 可 以 看 到 month, week 等 表 
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示 时 间 区 间 的 具有 相同 性 质 的 单词 。 然 后 ， 查 询 toyota， 可 以 得 到 ford, 
mazda 和 nissan 等 表示 汽车 制造 商 的 词汇 。 从 这 些 结果 可 以 看 出 ， 由 
CBOW 模型 获得 的 单词 的 分 布 式 表 示 具 有 良好 的 性 质 。 

此 外 ， 由 word2vec 获得 的 单词 的 分 布 式 表示 不 仅 可 以 将 近似 单词 聚 
拢 在 一 起 ， 还 可 以 捕获 更 复杂 的 模式 ， 其 中 一 个 具有 代表 性 的 例子 是 因 
"king — man 十 woman = queen” 而 出 名 的 类 推 问题 (类 比 问题 )。 更 准确 
地 说 ， 使 用 word2vec 的 单词 的 分 布 式 表示 ， 可 以 通过 向 量 的 加 减法 来 解决 
类 推 问题 。 

如 图 4-20 所 示 ， 要 解决 类 推 问题 ,需要 在 单词 向 量 空 间 上 寻找 尽 可 能 
使 “man 一 woman” 向 量 和 “king 一 ?” 向 量 接近 的 单词 。 







































































woman 


man 


king 











图 4-20 借助 "man : woman = king : ?” 这 个 类 推 问题 ， 展 示 各 个 单词 在 单词 向 量 空 
间 上 的 相关 性 


这 里 用 vec(‘man’) 表示 单词 man 的 分 布 式 表示 ( 单词 向 量 )。 如 此 一 来 ， 
图 4-20 中 要 求 的 关联 性 可 以 用 数学 式 表 示 为 vec(‘woman’) 一 vec(‘man’) = 
vec(?) 一 vec('king’)。 将 其 变形 ， 有 vec(‘king”) + vec(‘woman’) — vec(‘man’) = 
vec(?)。 也 就 是 说 ， 我 们 的 任务 是 找到 离 向 量 vec(‘king’) + vec( woman’) 一 
vec(^man') 最 近 的 单词 向 量 。 本 书 在 common/util.py 中 提供 了 实现 此 逻辑 
的 函数 analogy()。 使 用 这 个 函数 ， 可 以 用 analogy('man', 'king', 'woman', 
word to id, id to word, word vecs, top-5) 这 样 1 行 代 码 来 回答 刚才 的 类 推 
问题 。 此 时 ， 输 出 的 结果 如 下 所 示 。 
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[analogy] man:king = woman:? 
wordl: 5.003233 


word2: 4.400302 
word3: 4.22342 
word4: 4.003234 
word5: 3.934550 











分 显示 在 各 个 单词 的 旁边 。 现 在 ， 我 们 来 实际 解决 儿 个 类 推 问题 。 


个 问题 (= ch04/eval.py )。 





第 1 行 显示 的 是 问题 ， 之 后 按照 得 分 从 高 到 低 的 顺序 输出 5 个 单词 ， 得 





Ti 








[是 4 





analogy('king', 'man', 'queen', word to id, id to word, word vecs) 
analogy('take', 'took', 'go', word to id, id to word, word vecs) 

analogy('car', 'cars', 'child', word to id, id to word, word vecs) 
analogy('good', 'better', 'bad', word to id, id to word, word vecs) 


执行 这 些 代码 ， 可 以 得 到 如 下 结果 。 


[analogy] king:man = queen:? 
woman: 5.161407947540283 
veto: 4.928170680999756 
ounce: 4.689689636230469 
earthquake: 4.633471488952637 
successor: 4.6089653968811035 


[analogy] take:took = go:? 
went: 4.548568248748779 
points: 4.248863220214844 
began: 4.090967178344727 
comes: 3.9805688858032227 
oct.: 3.9044761657714844 


[analogy] car:cars = child:? 
children: 5.217921257019043 
average: 4.725458145141602 
yield: 4.208011627197266 
cattle: 4.18687629699707 
priced: 4.178797245025635 
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[analogy] good:better = bad:? 
more: 6.647829532623291 
less: 6.063825607299805 
rather: 5.220577716827393 
slower: 4.733833312988281 
greater: 4.672840118408203 


结果 符合 我 们 的 预期 。 第 1 个 问题 是 “king : man = queen : ?", XE 
正确 地 回答 了 “woman”。 第 2 个 问题 是 “take : took = go : ?”， 也 按 预 期 
回答 了 “went”。 这 是 捕获 了 现在 时 和 过 去 时 之 间 的 模式 的 证 据 ， 可 以 解释 
为 单词 的 分 布 式 表示 编码 了 时 态 相关 的 信息 。 从 第 3 题 可 知 ， 单 词 的 单数 形 
式 和 复数 形式 之 间 的 模式 也 被 正确 地 捕获 。 可 惜 的 是 ， 对 于 第 4 题 “good : 
better = bad : ?”， 并 没 能 回答 出 “worse”。 不 过 ， 看 到 more, less 等 比较 





























级 的 单词 出 现在 回答 中 ， 说 明 这 些 性 质 也 被 编码 在 了 单词 的 分 布 式 表示 中 。 





像 这 样 ， 使 用 word2vec 获得 的 单词 的 分 布 式 表 示 ， 可 以 通过 向 量 














加 


减法 求解 类 推 问题 。 不 仅 限 于 单词 的 含义 ， 它 也 捕获 了 语法 中 的 模式 。 另 
外 ， 我 们 还 在 word2vec 的 单词 的 分 布 式 表示 中 发 现 了 一 些 有 趣 的 结果 ， 比 





如 good 和 best 之 间 存 在 better 这 样 的 关系 。 























这 里 的 类 推 间 题 的 结果 看 上 去 非常 好 。 不 过 遗憾 的 是 ， 这 是 笔者 



































特意 选 出 来 的 能 够 被 
获得 预期 的 结果 。 这 是 因为 PTB 数据 集 的 规模 还 是 比较 小 

































































页 利 解决 的 问题 。 实 际 上 ， 很 多 问题 都 无 法 


。 如 


果 使 用 更 大 规模 的 语料库 ， 可 以 获得 更 准确 、 更 可 靠 的 单词 的 分 


























布 式 表示 ， 从 而 大 大 提高 类 推 问题 的 准确 率 。 




















4.4 wor2vec 相 关 的 其 他 话题 


关于 word2vec 的 机 制 和 实现 ， 我 们 差不多 都 介绍 完了 。 本 节 我 们 来 讨 


论 一 些 有 关 word2cev 的 其 他 话题 。 
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44. word2vec 的 应 用 例 


使 用 word2vec 获得 的 单词 的 分 布 式 表示 可 以 用 来 查找 近似 单词 ， 但 是 
单词 的 分 布 式 表 示 的 好 处 不 仅仅 在 于 此 。 在 自然 语言 处 理 领 域 ， 单 词 的 分 布 
式 表示 之 所 以 重要 ， 原 因 就 在 于 迁移 尝 习 (transfer learning )。 迁 移 学 习 是 
指 在 某 个 领域 学 到 的 知识 可 以 被 应 用 于 其 他 领域 。 

在 解决 自然 语言 处 理 任 务 时 ， 一 般 不 会 使 用 word2vec 从 零 开 始 学 习 单 
词 的 分 布 式 表 示 ， 而 是 先 在 大 规模 语料库 ( Wikipedia、Google News 等 文 
本 数据 ) 上 学 习 ， 然 后 将 学 习 好 的 分 布 式 表示 应 用 于 某 个 单独 的 任务 。 比 如 ， 
在 文本 分 类 、 文 本 聚 类 、 词 性 标注 和 情感 分 析 等 自然 语言 处 理 任务 中 ， 第 一 
步 的 单词 向 量化 工作 就 可 以 使 用 学 习 好 的 单词 的 分 布 式 表 示 。 在 几乎 所 有 类 
型 的 自然 语言 处 理 任务 中 ,单词 的 分 布 式 表 示 都 有 很 好 的 效果 1 

单词 的 分 布 式 表 示 的 优点 是 可 以 将 单词 转化 为 固定 长 度 的 向 量 。 另 外 ， 
使 用 单词 的 分 布 式 表 示 ， 也 可 以 将 文档 ( 单词 序列 ) 转化 为 固定 长 度 的 向 
量 。 目 前 ， 关 于 如 何 将 文档 转化 为 固定 长 度 的 向 量 ， 相 关 研 究 已 经 进行 了 很 
多 ， 最 简单 的 方法 是 ， 把 文档 的 各 个 单词 转化 为 分 布 式 表 示 ， 然 后 求 它们 的 
总 和 。 这 是 一 种 被 称 为 bag-of-words 的 不 考虑 单词 顺序 的 模型 ( 思想 )。 此 
外 ， 使 用 即将 在 第 5 章 中 说 明 的 循环 神经 网 络 ， 可 以 以 更 加 优美 的 方式 利 
word2vec 的 单词 的 分 布 式 表示 来 将 文档 转化 为 固定 长 度 的 向 量 。 

将 单词 和 文档 转化 为 固定 长 度 的 向 量 是 非常 重要 的 。 因 为 如 果 可 以 将 
自然 语言 转化 为 向 量 ， 就 可 以 使 用 常规 的 机 絮 学 习 方 法 ( 神经 网 络 、SVM 
等 )， 如 图 4-21 所 示 。 


























































































































问题 单词 向 量化 | 机 器 学 习 系统 六 二 
E —— 一 -一 人 ys — 答案 
( 自然 语言 ) (word2vec ) | ( 神经 网 络 、SVM 等 ) is 


























图 4-21 使 用 了 单词 的 分 布 式 表示 的 系统 的 处 理 流程 





由 图 4-21 可 知 ， 如 有 果 可 以 将 自然 语言 书写 的 问题 转化 为 固定 长 度 的 向 
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zx 


量 ， 就 可 以 将 这 个 向 量 作为 其 他 机 器 学 习 系 统 的 输入 。 通 过 将 自然 语言 转化 
为 向 量 ， 可 以 利用 常规 的 机 器 学 习 框 架 输 出 目标 答案 (包括 它 的 学 习 )。 


在 图 4-21 的 流程 中 ， 单 词 的 分 布 式 表示 的 学 习 和 机 器 学 习 系 统 的 学 
习 通 常 使 用 不 同 的 数据 集 独立 进行 。 比 如 ， 单 词 的 分 布 式 表示 使 用 


Wikipedia 等 通用 语料库 预先 学 习 好 ， 然 后 机 器 学 习 系 统 (SVM 等 ) 
使 用 针对 当前 问题 收集 到 的 数据 进行 学 习 。 但 是 ， 如 果 当 前 我 们 
且 对 的 问题 存在 大 量 的 学 习 数 据 ， 则 也 可 以 考虑 从 零 开 始 同时 进行 
单词 的 分 布 式 表示 和 机 器 学 习 系 统 的 学 习 。 
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下 面 让 我 们 结合 具体 的 例子 来 说 明 一 下 单词 的 分 布 式 表示 的 使 用 方法 。 
假设 你 现在 开发 并 维护 着 一 个 拥有 超过 1 亿 用 户 的 智能 手机 应 用 ， 你 的 公司 
每 天 都 要 收 到 堆积 如 山 的 用 户 邮件 〈 在 Twitter 等 上 也 有 很 多 吐槽 )。 虽 然 
有 一 部 意见 是 积极 的 ， 但 是 也 存在 很 多 表达 不 满 的 用 户 意见 。 

为 此 ,你 考虑 开发 一 个 可 以 对 用 户 发 来 的 邮件 ( 吐槽 等 ) 自动 进行 分 类 
的 系统 。 如 图 4-22 所 示 ， 你 想 根 据 邮 件 的 内 容 将 用 户 情感 分 为 3 类。 如果 
可 以 正确 地 对 用 户 情感 进行 分 类 ， 就 可 以 按 序 浏 览 表达 不 满 的 用 户 邮 件 。 如 
此 一 来 ， 或 许可 以 发 现 应 用 的 致命 问题 ， 并 尽早 采取 应 对 措施 ， 从 而 提高 用 
户 的 满意 度 。 


















































C4 — | FAAR | 一 一 神经 网 络 |I— € 


( word2vec ) 











4-22 邮件 的 自动 分 类 系统 (情感 分 析 ) 的 例子 





要 开发 邮件 自动 分 类 系统 ， 首 先 需 要 从 收集 数据 ( 邮件 ) 开始 。 在 这 
个 例子 中 ， 我 们 收集 用 户 发 送 的 邮件 ， 并 人 工 对 邮件 进行 标注 ， 打 上 表示 3 
类 情感 的 标签 ( positive/neutral/negative )。 标 注 工作 结束 后 ， 用 学 习 好 的 
word2vec 将 邮件 转化 为 向 量 。 然 后 ， 将 向 量化 的 邮件 及 其 情感 标签 输入 某 
个 情感 分 类 系统 (SVM 或 神经 网 络 等 ) 进行 学 习 。 
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如 本 例 所 示 ， 可 以 基于 单词 的 分 布 式 表示 将 自然 语言 处 理 问题 转化 为 
向 量 ， 这 样 就 可 以 利用 常规 的 机 器 学 习 方法 来 解决 问题 。 另 外 ， 这 样 也 能 从 
word2vec 的 迁移 学 习 中 受益 。 换 名 话说， 利用 word2vec 的 单词 的 分 布 式 表 
示 ， 可 以 期 待 大 多 数 自然 语言 处 理 任 务 获得 精度 上 的 提高 。 








4.4.2 ”单词 向 量 的 评价 方法 

使 用 word2vec， 我 们 得 到 了 单词 的 分 布 式 表示 。 那 么 ,我 们 应 该 如 何 
评价 分 布 式 表示 的 优 劣 呢 ? 本 节 我 们 将 简单 说 明 分 布 式 表 示 的 评价 方法 。 

正如 上 述 情感 分 析 的 例子 那样 ， 在 现实 世界 中 ,单词 的 分 布 式 表示 
往往 被 用 在 具体 的 应 用 中 。 我 们 最 终 想 要 的 是 一 个 高 精度 的 系统 。 这 里 我 
们 必须 考虑 到 的 是 ， 这 个 系统 ( 比如 情感 分 析 系 统 ) 是 由 多 个 子 系统 组 成 
的 。 所 谓 多 个 子 系统 ， 拿 刚才 的 例子 来 说 ， 包 括 生成 单词 的 分 布 式 表示 
的 系统 (word2vec )、 对 特定 问题 进行 分 类 的 系统 ( 比如 进行 情感 分 类 的 
SVM 等 )。 

单词 的 分 布 式 表 示 的 学 习 和 分 类 系统 的 学 习 有 时 可 能 会 分 开 进 行 。 在 这 
种 情况 下 ， 如 果 要 调查 单词 的 分 布 式 表示 的 维 数 如 何 影响 最 终 的 精度 ， 首 先 需 
要 进行 单词 的 分 布 式 表示 的 学 习 ， 然 后 再 利用 这 个 分 布 式 表示 进行 另 一 个 机 器 
学 习 系统 的 学 习 。 换 句 话 说， 在 进行 两 个 阶段 的 学 习 之 后 ， 才 能 进行 评价 。 在 
这 种 情况 下 ， 由 于 需要 调试 出 对 两 个 系统 都 最 优 的 超 参数 ， 所 以 非常 费时 。 

因此 ， 单 词 的 分 布 式 表示 的 评价 往往 与 实际 应 用 分 开 进行 。 此 时 ， 经 常 
使 用 的 评价 指标 有 “相似 度 ” 和 “类 推 问题 "。 

单词 相似 度 的 评价 通常 使 用 人 工 创建 的 单词 相似 度 评价 集 来 评估 。 比 
如 ，cat 和 animal 的 相似 度 是 8，cat 和 car 的 相似 度 是 2…… 类 似 这 样 ， 
JO ~ 10 的 分 数 人 工地 对 单词 之 间 的 相似 度 打 分 。 然 后 ， 比 较 人 给 出 的 分 
数 和 word2vec 给 出 的 余弦 相似 度 ， 考 察 它 们 之 间 的 相关 性 。 

类 推 问 题 的 评价 是 指 ， 基 于 诸如 “king : queen = man : ?” 这 样 的 类 
推 问题 ， 根 据 正确 率 测量 单词 的 分 布 式 表示 的 优 劣 。 比 如 ， 论 文 [27] 中 给 出 
了 一 个 类 推 问题 的 评价 结果 ， 其 部 分 内 容 如 图 4-23 所 示 。 
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模型 维 数 语料库 的 大 小 Semantics Syntax Total 
CBOW 300 1647 16.1 52.6 36.1 
skip-gram 300 1044 61 61 61 
CBOW 300 60 亿 63.6 67.4 65.7 
skip-gram 300 60 亿 73.0 66.0 69.1 
CBOW 1000 60 亿 57.3 68.9 63.7 
skip-gram 1000 60 亿 66.1 65.1 65.6 

















4-23 ”基于 类 推 问题 的 单词 向 量 的 评价 结果 (参考 论文 [27]) 








在 图 4-23 中 ， 以 word2vec 的 模型 、 单 词 的 分 布 式 表示 的 维 数 和 语料库 
的 大 小 为 参数 进行 了 比较 实验 ， 结 果 在 右 侧 的 3 列 中 。 图 4-23 的 Semantics 
列 显 示 的 是 推断 单词 含义 的 类 推 问题 ( 像 “king : queen = actor : actress" 
这 样 询问 单词 含义 的 问题 ) 的 正确 率 ，Syntax 列 是 询问 单词 形态 信息 的 问 
题 ， 比 如 “bad : worst = good : best", 











由 图 4-23 可 知 : 

。 模型 不 同 ， 精 度 不 同 ( 根 据 语料库 选择 最 佳 的 模型 ) 
。 语料库 越 大 ， 结 果 越 好 (始终 需要 大 数据 ) 

e 单词 向 量 的 维 数 必须 适中 ( 太 大 会 导致 精度 变 差 ) 
















































































基于 类 推 问题 可 以 在 一 定 程 度 上 衡量 “是 否 正确 理解 了 单词 含义 或 语法 
问题 "。 因 此 ， 在 自然 语言 处 理 的 应 用 中 ， 能 够 高 精度 地 解决 类 推 问题 的 单 
词 的 分 布 式 表示 应 该 可 以 获得 好 的 结果 。 但 是 ， 单 词 的 分 布 式 表示 的 优 劣 对 
目标 应 用 贡献 多 少 〈 或 者 有 无 贡献 )， 取决 于 待 处 理 问题 的 具体 情况 ， 比 如 
应 用 的 类 型 或 语料库 的 内 容 等 。 也 就 是 说 ， 不 能 保证 类 推 问题 的 评价 高 ， 目 
标 应 用 的 结果 就 一 定好 。 这 一 点 请 一 定 注意 。 
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4.5 小结 





本 章 我 们 以 word2vec 的 高 速 化 为 主题 ,对 上 一 章 的 CBOW 模型 进行 
了 改进 。 具 体 来 说 ， 我 们 实现 了 Embedding 层 ， 并 引入 了 一 种 名 为 负 采 样 
的 新 方法 。 这 一 改进 的 背景 是 ， 原 先 的 方法 随 着 语料库 词汇 量 的 增加 ,计算 
量 也 按 比例 增加 。 

利用 “部 分 ”数据 而 不 是 “全 部 ”数据 ， 这 是 本 章 的 一 个 重要 话题 。 正 
如 人 不 能 全 知 全 能 一 样 ， 以 当前 的 计算 机 性 能 ， 要 处 理 所 有 的 数据 也 是 不 现 








实 的 。 相 反 ， 

















仅 处 理 对 我 们 有 用 的 那 一 小 部 分 数据 会 有 更 好 的 效果 。 本 章 我 


们 仔细 研究 了 基于 这 一 思想 的 负 采 样 技术 。 负 采样 通过 仅 关注 部 分 单词 实现 
了 计算 的 高 速 化 。 
通过 上 一 章 和 本 章 的 介绍 ， 关 于 word2vec 的 一 系列 话题 就 要 进入 尾声 





了 。word2ve 





c 对 自然 语言 处 理 领 域 产生 了 很 大 的 影响 ， 基 于 它 获 得 的 单词 








的 分 布 式 表示 被 应 用 在 了 各 种 自然 语言 处 理 任务 中 。 男 外 ， 不 仅 限于 自然 语 
言 处 理 ，word2vec 的 思想 还 被 应 用 在 了 语音 、 图 像 和 视频 等 领域 中 。 和 希望 


读者 能 切实 型 
能 派 上 用 场 。 























E 解 本 章 所 讲 的 word2vec 的 相关 内 容 ， 这 些 知识 在 许多 领域 都 
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Embedding 层 保存 单词 的 分 布 式 表 示 ， 在 正 向 传播 时 ， 提 取 单 词 ID 
对 应 的 向 量 
因为 word2vec 的 计算 量 会 随 着 词汇 量 的 增加 而 成 比例 地 增加 ， 所 以 








最 好 使 用 近似 计算 来 加 速 
负 采 样 技术 采样 若干 负 例 ， 使 用 这 一 方法 可 以 将 多 分 类 问题 转化 为 
二 分 类 问题 进行 处 理 


基于 word2vec 获得 的 单词 的 分 布 式 表 示 内 秽 了 单词 含义 ， 在 相似 的 
上 下 文中 使 用 的 单词 在 单词 向 量 空间 上 处 于 相近 的 位 置 
word2vec 的 单词 的 分 布 式 表示 的 一 个 特性 是 可 以 基于 向 量 的 加 减法 
运算 来 求解 类 推 问题 

word2vec 的 迁移 学 习 能 力 非常 重要 ， 它 的 单词 的 分 布 式 表示 可 以 应 
用 于 各 种 各 样 的 自然 语言 处 理 任务 





第 5 章 
RNN 


只 记得 我 在 一 个 硼 瞳 潮湿 的 地 方 噶 噶 地 颈 泣 着 。 


一 一 夏目 濑 五 《我 是 猫 》 





到 目前 为 止 ,我们 看 到 的 神经 网 络 都 是 前 馈 型 神经 网 络 。 前 僻 
( feedforward ) 是 指 网 络 的 传播 方向 是 单 向 的 。 具 体 地 说 ， 先 将 输入 信号 传 
给 下 一 层 〈 隐 藏 层 )， 接 收 到 信号 的 层 也 同样 传 给 下 一 层 ， 然 后 再 传 给 下 一 











层 …… 像 这 样 ， 信 和 号 仅 在 一 个 方向 上 传播 。 











虽然 前 馈 网 络 结构 简单 、 易 于 理解 ， 但 是 可 以 应 用 于 许多 任务 中 。 不 过 ， 
这 种 网 络 存 在 一 个 大 问题 ， 就 是 不 能 很 好 地 处 理 时 间 序 列 数据 ( 以 下 简称 为 
“时 序数 据 ”)。 更 确切 地 说 ， 单 纯 的 前 馈 网 络 无 法 充分 学 习 时 序数 据 的 性 质 CB 
I) FÆ, RNN (Recurrent Neural Network， 循 环 神经 网 络 ) 便 应 运 而 生 。 

本 章 我 们 将 指出 前 馈 网 络 的 问题 ， 并 介绍 RNN 如 何 很 好 地 解决 这 些 问 























题 。 然 后 ， 我 们 会 详细 解释 RNN 的 结构 ， 并 
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作为 介绍 RNN 的 准备 ， 我 们 将 首先 复习 上 一 章 的 word2vec， 然 后 使 














] Python 对 其 进行 实现 。 








用 概率 描述 自然 语言 相关 的 现象 ， 最 后 介绍 从 概率 视角 人 研究 语言 的 “语言 





模型 ”。 
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5.1.1 概率 视角 下 的 word2vec 


我 们 先 复 习 一 下 word2vec 的 CBOW 模型 。 





这 里 ， 我 们 来 考虑 由 单词 














序列 wi, w2,… , wz 表示 的 语料库 ， 将 第 上 个 单词 作为 目标 词 ， 将 它 左 右 的 





(第 上 一 1 个 和 第 上 十 1 个 ) 单词 作为 


ET 














FP 间 的 单词 ， 


























AN 在 本 书 中 ,目标 词 是 指 9 











上 下 文 是 措 目 标 词 周围 的 单词 。 






































如 图 5-1 所 示 ，CBOW 模型 所 做 的 事情 就 是 从 上 下 文 (wi_1 和 wea ) 





预测 目标 词 (wi )。 











WIW -> Wi, 0t Wip 本 有 


WT-—1 WT 








5-1 word2vec 的 CBOW 模 型: 从 上 下 文 预测 目标 词 





下 面 ， 我 们 用 数学 式 来 表示 “ 当 给 定 we- 和 wee 时 目标 词 是 we 的 概 











XE", ux (5.1) 所 示 : 


P(wi|wi-i, wii) 


(5.1) 


CBOW 模型 对 式 (5.1) 这 一 后 验 概率 进行 建 模 。 这 个 后 验 概 率 表示 “ 当 


给 定 wi-1 和 wiri 时 wi 发 生 的 概率 ”。 








顺便 提 一 下 ， 我 们 之 前 考虑 的 窗 





限定 为 左 侧 窗口 ， 比 如 图 5-2 所 示 的 情况 。 


这 是 窗口 大 小 为 1 时 的 CBOW 模型 。 
口 都 是 左右 对 称 的 。 这 里 我 们 将 上 下 文 
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W1 W2 +: Wia Ui 3 [Wi Wii vo Wr- WT 
图 5-2， 仅 有 左 侧 窗口 的 上 下 文 
在 仅 将 左 侧 2 个 单词 作为 上 下 文 的 情况 下 ，CBOW 模型 输出 的 概率 如 
式 (5.2) 所 示 : 
P (wc |wt-2, wt) (5.2) 






















































































word2vec 的 上 下 文 窗口 大 小 是 超 参数 ， 可 以 设置 为 任何 值 。 这 里 将 
窗口 大 小 设置 为 左右 非 对 称 的 形式 ， 即 左 侧 2 个 单词 ， 右 侧 0 个 单词 。 





























这 样 设 定 的 理由 是 提前 考虑 了 后 面 要 说 的 语言 模型 。 









































使 用 式 (5.2) 的 写法 ，CBOW 模型 的 损失 函数 可 以 写成 式 (5.3)。 式 


(5.3) 是 从 交叉 箭 误差 推导 出 来 的 结果 ( 具体 请 参考 1.3.1 节 )。 











L = —log P(w:|wt-2, wt-1) 








(5.3) 


CBOW 模型 的 学 习 旨 在 找到 使 式 (5.3) 表示 的 损失 函数 ( 确切 地 说 ， 





Zt, CBOW 模型 就 可 以 更 准确 地 从 上 下 文 预测 目标 词 
像 这 样 ，CBOW 模型 的 学 习 目 的 是 从 上 下 文 预 讽 





是 整个 语料库 的 损失 函数 之 和 ) 最 小 的 权重 参数 。 只 要 找到 了 这 样 的 权重 参 





o 


上 出 目标 词 。 为 了 达成 





一 目标 ， 随 着 学 习 的 推进 ，( 作为 副产品 ) 获得 了 编码 了 单词 含义 信息 的 











的 分 布 式 表示 。 











那么 ，CBOW 模型 本 来 的 目的 “从 上 下 文 预测 目标 词 ”是 否 可 以 用 来 
做 些 什 么 呢 ? 式 (5.2) 表示 的 概率 P ws |wi-2, wt-1) 是 否 可 以 在 一 些 实际 场 





景 中 发 挥 作用 呢 ? 说 到 这 里 ， 就 要 提 一 下 语言 模型 了 。 


176 | 第 5 章 RNN 








5.1.2 ”语言 模型 

语言 模型 (language model) 给 出 了 单词 序列 发 生 的 概率 。 具 体 来 说 ， 
就 是 使 用 概率 来 评估 一 个 单词 序列 发 生 的 可 能 性 ， 即 在 多 大 程度 上 是 自然 的 
单词 序列 。 比 如 ， 对 于 “you say goodbye” 这 一 单词 序列 ， 语 言 模型 给 出 
高 概率 ( 比如 0.092 ); 对 于 “you say good die” 这 一 单词 序列 ， 模 型 则 给 
出 低 概率 ( 比如 0.000 000 000 003 2 )。 

语言 模型 可 以 应 用 于 多 种 应 用 ， 典 型 的 例子 有 机 器 翻译 和 语音 识别 。 比 
如 ， 语 音 识别 系统 会 根据 人 的 发 言 生成 多 个 句子 作为 候选 。 此 时 ,使 用 语言 
模型 ， 可 以 按照 “作为 句子 是 否 自然 ”这 一 基准 对 候选 句子 进行 排序 。 

语言 模型 也 可 以 用 于 生成 新 的 句子 。 因 为 语言 模型 可 以 使 用 概率 来 评价 
单词 序列 的 自然 程度 ， 所 以 它 可 以 根据 这 一 概率 分 布 造 出 (采样 ) 单词 。 另 
外 ， 第 7 章 中 我 们 会 讨论 如 何 使 用 语言 模型 生成 文章 。 

现在 ， 我 们 使 用 数学 式 来 表示 语言 模型 。 这 里 考虑 由 m 个 单词 wi,……， 
wm 构成 的 句子 ， 将 单词 按 wi,… wm 的 顺序 出 现 的 概率 记 为 P(wi,…， 
wm )。 因 为 这 个 概率 是 多 个 事件 一 起 发 生 的 概率 ， 所 以 称 为 联合 概率 。 
使 用 后 验 概率 可 以 将 这 个 联合 概率 P(wi,… ,wm ) 分 解 成 如 下 形式 : 

























































































P(wi, ,wWm) = P(wm| w1, ,wm-1)P(wm 1 |wi,::: ,Wm—2) 


--- P(ws|wi,w2)P(wos |w1)P(w1) (5.4) 


m 
= [[ Pllw,.: ,u, 1) 0 
t—1 


与 表示 总 和 的 > (sigma) 相对 ， 式 (5.4) 中 的 1 (pi) 表示 所 有 元 素 
相 乘 的 乘积 。 如 式 (5.4) 所 示 ， 联 合 概率 可 以 由 后 验 概率 的 乘积 表示 。 

式 (5.4) 的 结果 可 以 从 概率 的 乘法 定理 推导 出 来 。 这 里 我 们 花 一 点 时 间 
来 说 明 一 下 乘法 定理 ， 并 看 一 下 式 (5.4) 的 推导 过 程 。 


























QD 为 了 简化 数学 式 ， 这 里 将 Pus | wo) EN P(w) 处 理 。 
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首先 ， 概 率 的 乘法 定理 可 由 下 式 表示 : 


P(A,B) = P(A|B)P(B) (5.5) 











X (5.5) 表示 的 乘法 定理 是 概率 论 中 最 重要 的 定理 ， 意 思 是 “4 和 B 两 
个 事件 共同 发 生 的 概率 P(A, B) Æ “BREEK P(B)” 和 “B 发生 后 
4 发 生 的 概率 P( AIB)” 的 乘积 (这 个 解释 感觉 上 非常 自然 )。 


概率 P(4,B) 也 可 以 分 解 为 P(4,B)= P(BI4)P(4)。 也 就 
是 说 , 根据 将 4 和 B 中 的 哪 一 个 作为 后 验 概率 的 条 件 ， 存在 


P(A, B) = P(B|A)P(A)Ẹ0 P(A, B) = P(A41B)P(B) 两 种 表示 
Ek. 





























使 用 这 个 乘法 定理 ，m 个 单词 的 联合 概率 PP(wi,… , wm) 就 可 以 用 后 
验 概率 来 表示 。 为 了 便于 理解 ， 我 们 先 将 式 子 如 下 变形 : 








P(wiy ,Wm—1, Wm) = P(A, wm) = P(wm|A)P(A) (5.6) 
= 





这 里 ， 将 wi,… um-1 整 体 表 示 为 4。 这 样 一 来 ， 按 照 乘 法 定理 ， 可 以 推 
导出 式 (5.6)。 接 着 ， 再 对 AQ; ,wm-1) 进行 同样 的 变形 : 








P(A) = P(w, Sues , Wm—2;, Wm—1) = P(A', wq 1) = P(wm—1| A) P(A’) 
———— 


A! (5.7) 


像 这 样 ， 单 词 序列 每 次 减少 一 个 ， 分 解 为 后 验 概率 。 然 后 ， 重 复 这 一 过 程 ， 
就 可 以 推导 出 式 (5.4)。 

如 式 (5.4) 所 示 ， 联 合 概率 P(wi,… ,wm) 可 以 表示 为 后 验 概率 的 乘积 
[TPlwihwi,… ,wt-1)。 这 里 需要 注意 的 是 ， 这 个 后 验 概 率 是 以 目标 词 左 侧 
的 全 部 单词 为 上 下 文 ( 条件 ) 时 的 概率 ， 如 图 5-3 所 示 。 
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1 QU» es Wt-1 Wil "m Wm 


` 
P(w;|w;, 2,::* , W1) 











5-3 ”语言 模型 中 的 后 验 概率 : 若 以 第 t+ 个 单词 为 目标 词 ， 则 第 t+ 个 单词 左 侧 的 全 部 单词 
构成 上 下 文 (条 件 ) 


这 里 我 们 来 总 结 一 下 ， 我 们 的 目标 是 求 P(wtjwi,… ,wt-1) 这 个 概率 。 
如 果 能 计算 出 这 个 概率 ， 就 能 求 得 语言 模型 的 联合 概率 P(wi,…, wm)。 





由 P(wtlwi,…, wt-1) 表示 的 模型 称 为 条 件 语言 模型 (conditional 


language model)， 有 时 也 将 其 称 为 语言 模型 。 



































5.1.3. 将 CBOVW 模型 用 作 语 言 模型 ? 

那么 ， 如 果 要 把 word2vec 的 CBOW 模型 ( 强行 ) 用 作 语 言 模 型 ， 该 
怎么 办 呢 ? 可 以 通过 将 上 下 文 的 大 小 限制 在 某 个 值 来 近似 实现 ， 用 数学 式 可 
以 如 下 表示 : 





Tri 


m 
P(w, wm) = [[PQibwi m) ~ | | Pewrl w2, wii) (5-8) 
$=] t=1 








这 里 ,我 们 将 上 下 文 限定 为 左 侧 的 2 个 单词 。 如 此 一 来 ， 就 可 以 用 CBOW 
模型 (CBOW 模型 的 后 验 概率 ) 近似 表示 。 




















在 机 器 学 习 和 统计 学 领域 ,经 常会 听 到 “马尔 可 夫 性 "(或 者 “马尔 
可 夫 模 型 ”“ 马 尔 可 夫 链 ”) 这 个 词 。 马 尔 可 夫 性 是 指 未 来 的 状态 仪 
依存 于 当前 状态 。 此 外 ， 当 某 个 事件 的 概率 仪 取决 于 其 前 面 的 Y 个 
事件 时 ， 称 为 “N 阶 马尔 可 夫 链 "。 这 里 展示 的 是 下 一 个 单词 仪 取决 
于 前 面 2 个 单词 的 模型 ， 因 此 可 以 称 为 “2 阶 马 尔 可 夫 链 ”。 
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式 (5.8) 是 使 用 2 个 单词 作为 上 下 文 的 例子 ， 但 是 这 个 上 下 文 的 大 小 可 
以 设 定 为 任意 长 度 (比如 5 或 10 )。 不 过 ， 虽 说 可 以 设 定 为 任意 长 度 ， 但 
必须 是 某 个 “固定 ”长 度 。 比 如 ， 即 便 是 使 用 左 侧 10 个 单词 作为 上 下 文 的 
CBOW 模型 ， 其 上 下 文 更 左 侧 的 单词 的 信息 也 会 被 忽略 ， 而 这 会 导致 问题 ， 
如 图 5-4 中 的 例子 所 示 。 




















Tom was watching TV in his room. Mary came into the room. Mary said hito | ? | 











5-4 ”需要 较 长 的 上 下 文 的 问题 示例 :“?” 中 应 填 入 什么 单词 ? 





在 图 5-4 的 问题 中 ,“Tom 在 房间 看 电视 ，Mary 进 了 房间 ”。 根 据 该 语 
境 ( 上下文 )， 正 确 答案 应 该 是 Mary 向 Tom (或 者 “him”) 打招呼 。 这 
里 要 获得 正确 答案 ， 就 必须 将 “?” 前 面 第 18 个 单词 处 的 Tom 记 住 。 如 果 
CBOW 模型 的 上 下 文大 小 是 10， 则 这 个 问题 将 无 法 被 正确 回答 。 

那么 ， 是 否 可 以 通过 增 大 CBOW 模型 的 上 下 文大 小 ( 比如 变 为 20 或 
30) 来 解决 此 问题 呢 ?” 的 确 ，CBOW 模型 的 上 下 文大 小 可 以 任意 设 定 ， 但 
是 CBOW 模型 还 存在 忽视 了 上 下 文中 单词 顺序 的 问题 。 


CBOW 是 Continuous Bag-Of-Words 的 简称 。Bag-Of-Words 是 
“一 袋子 单词 ”的 意思 ， 这 意味 着 袋子 中 单词 的 顺序 被 忽视 了 。 
LALN 


关于 上 下 文 的 单词 顺序 被 忽视 这 个 问题 ， 我 们 举 个 例子 来 具体 说 明 。 比 
如 ， 在 上 下 文 是 2 个 单词 的 情况 下 ，CBOW 模型 的 中 间 层 是 那 2 个 单词 向 
量 的 和 ， 如 图 5-5 所 示 。 

如 图 5-5 的 左 图 所 示 ， 在 CBOW 模型 的 中 间 层 求 单词 向 量 的 和 ， 因 此 
上 下 文 的 单词 顺序 会 被 忽视 。 比 如 ，(you, say) 和 (say, you) 会 被 作为 相同 
的 内 容 进行 处 理 。 
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Win 
Wo ut 


中 间 层 
Wi, 








输入 层 输入 层 
(EFX) (EFX) 











5-5 ” 左 图 是 常规 的 CBOW 模型 。 右 图 模型 的 中 间 层 由 上 下 文 的 各 个 单词 向 量 “拼接 ” 
而 成 (图 中 的 输入 层 是 one-hot 向 量 ) 











我 们 想 要 的 是 考虑 了 上 下 文中 单词 顺序 的 模型 。 为 此 ， 可 以 像 图 5-5 中 
的 右 图 那样 ， 在 中 间 层 “拼接 ”( concatenate ) 上 下 文 的 单词 向 量 。 实 际 上 ， 
“Neural Probabilistic Language Model" [S] 中 提出 的 模型 就 采用 了 这 个 方法 
(关于 模型 的 详细 信息 ， 请 参考 论文 28] )。 但 是 ， 如 果 采 用 拼接 的 方法 ， 权 重 
参数 的 数量 将 与 上 下 文大 小 成 比例 地 增加 。 显 然 ， 这 是 我 们 不 愿意 看 到 的 。 

那么 ， 如 何 解 决 这 里 提出 的 问题 呢 ? 这 就 轮 到 RNN 出 场 了 。RNN 具 
有 一 个 机 制 ， 那 就 是 无 论 上 下 文 有 多 长 ， 都 能 将 上 下 文 信息 记 住 。 因 此 , 使 
用 RNN 可 以 处 理 任意 长 度 的 时 序数 据 。 下面， 我 们 就 来 感受 一 下 RNN 的 
魅力 。 

































































word2vec 是 以 获取 单词 的 分 布 式 表 示 为 目的 的 方法 ， 因 此 一 般 
不 会 用 于 语言 模型 。 这 里 , 为 了 引出 RNN 的 魅力 ， 我们 拓展 了 
话题 ， 强 行将 word2vec 的 CBOW 模型 应 用 在 了 语言 模型 上 。 
word2vec 和 基于 RNN 的 语言 模型 是 由 托马斯 - 米 科 洛 夫 团 队 分 
别 在 2013 年 和 2010 年 提出 的 。 基 于 RNN 的 语言 模型 虽然 也 能 
获得 单词 的 分 布 式 表 示 ， 但 是 为 了 应 对 词汇 量 的 增加 、 提 高 分 布 
式 表示 的 质量 ，word2vec 被 提 了 出 来 。 
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5.2 RNN 


RNN ( Recurrent Neural Network ) 中 的 Recurrent 源 自 拉丁 语 ， 意 
思 是 “反复 发 生 ”， 可 以 翻译 为 “重复 发 生 ”“ 周 期 性 地 发 生 ”“ 循 环 "， 因 此 
RNN 可 以 直译 为 “复发 神经 网 络 ” 或 者 “循环 神经 网 络 "。 下 面 ， 我 们 将 探 
讨 “ 循 环 ” 一 词 。 












































Recurrent Neural Network 通常 译 为 “循环 神经 网 络 ” 。 另 外 ， 
还 有 一 种 被 称 为 Recursive Neural Network( 递 归 神 经 网 络 ) 的 
网 络 。 这 个 网 络 主要 用 于 处 理 树 结构 的 数据 ， 和 循环 神经 网 络 不 
是 一 个 东西 。 






























































7 



































5.2.1 ”循环 的 神经 网 络 

“循环 ”是 什么 意思 呢 ? 是 “反复 并 持续 ”的 意思 。 从 某 个 地 点 出 发 ， 
经 过 一 定时 间 又 回 到 这 个 地 点 ， 然 后 重复 进行 ， 这 就 是 “循环 ”一 词 的 含 
义 。 这 里 要 注意 的 是 ,循环 需要 一 个 “ 环 路 ”。 

只 有 存在 了 “ 环 路 ”或 者 “回路 ”这 样 的 路 径 ， 媒介 ( 或 者 数据 ) 才能 
在 相同 的 地 点 之 间 来 回 移动 。 随 着 数据 的 循环 ， 信 息 不 断 被 更 新 。 























血液 在 我 们 体内 循环 。 今 天 流动 的 血液 是 接着 昨天 的 血液 继续 流动 的 。 
另外 ， 它 也 是 接着 一 周 前 的 、 一 个 月 前 的 、 一 年 前 的 ， 甚 至 刚 出 
时 的 血液 继续 流动 的 。 血 液 通过 在 体内 循环 ， 从 过 去 一 直 被 
到 现在 。 








































































































更 新 ” 





























RNN Pare et (或 回路 )。 这 个 环 路 可 以 使 数据 
不 断 循环 。 通 过 数据 的 循环 ，RNN 一 边 记 住 过 去 的 数据 ， 一 边 更 新 到 最 新 
的 数据 。 
下 面 ， 我 们 来 具体 地 看 一 下 RNN。 这 里 ， 我 们 将 RNN 中 使 用 的 层 称 
为 “RNN 层 ”， 如 图 5-6 所 示 。 
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du ——9 RNN | 一 >h; 

















5-6 拥有 环 路 的 RNN 层 





如 图 5-6 所 示 ，RNN 层 有 环 路 。 通 过 该 环 路 ， 数 据 可 以 在 层 内 循环 。 
在 图 5-6 中 ， 时 刻 上 的 输入 是 zx， 这 暗示 着 时 序数 据 (zo, zl … ,zt …) 会 
被 输入 到 层 中 。 然 后 ， 以 与 输入 对 应 的 形式 ， 输 出 (ho, ha, hes )。 

这 里 假定 在 各 时 刻 向 RNN 层 输入 的 zi 是 向 量 。 比 如 ， 在 处 理 句子 (HR 
词 序列 ) 的 情况 下 ， 将 各 个 单词 的 分 布 式 表示 (单词 向 量 ) 作为 zz 输入 
RNN 层 。 


仔细 看 一 下 图 5-6， 可 以 发 现 输出 有 两 个 分 又 ， 这 意味 着 同一 个 
东西 被 复制 了 。 输 出 中 的 一 个 分 叉 将 成 为 其 自身 的 输入 。 


接着 ,我 们 来 详细 介绍 一 下 图 5-6 的 循环 结构 。 在 此 之 前 ， 我 们 先 将 
RNN 层 的 绘制 方法 更 改 如 下 。 

如 图 5-7 所 示 ， 到 目前 为 止 ， 我 们 在 绘制 层 时 都 是 假设 数据 从 左 向 右 流 
动 的 。 不 过 ， 从 现在 开始 ， 为 了 节省 纸 面 空间 ， 我 们 将 假设 数据 是 从 下 向 上 
流动 的 (这 是 为 了 在 之 后 需要 展开 循环 时 ， 能 够 在 左右 方向 上 将 层 铺 开 )。 





























































































































Tt > RNN > h, 























5-7 把 层 旋 转 90 度 


52.2 ”展开 循环 

现在 ， 准 备 工 作 已 经 完成 了 ， 我 们 来 仔细 看 一 下 RNN 层 的 循环 结构 。 
RNN 的 循环 结构 在 之 前 的 神经 网 络 中 从 未 出 现 过 ， 但 是 通过 展开 循环 ， 可 
以 将 其 转化 为 我 们 熟悉 的 神经 网 络 。 百 闻 不 如 一 见 ， 现 在 我 们 就 实际 地 进行 
展开 (图 5-8 )。 





























T ho hi h h, 

| | | | | 

RNN | = RNN | | RNN | . RNN E RNN ^h, 
| | | | 

2 To Zi To T Tt 











图 5-8 RNN 层 的 循环 的 展开 


如 图 5-8 所 示 ， 通 过 展开 RNN 层 的 循环 ， 我 们 将 其 转化 为 了 从 左 向 右 
延伸 的 长 神经 网 络 。 这 和 我 们 之 前 看 到 的 前 馈 神 经 网 络 的 结构 相同 ( 前 馈 网 
络 的 数据 只 向 一 个 方向 传播 )。 不过， 图 5-8 中 的 多 个 RNN 层 都 是 “同一 
个 层 "， 这 一 点 与 之 前 的 神经 网 络 是 不 一 样 的 。 
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时 序数 据 按时 间 上 顺序 排 列 。 因 此 ， 我 们 用 “时 刻 ” 这 个 词 指 代 时 

AN 序数 据 的 索引 (比如 ， 时 刻 t 的 输入 数据 为 zz)。 在 自然 语言 处 理 
的 情况 下 ， 既 使 用 第 ! 个 单词 “第 ! 个 RNN 层 这样 的 表述 ， 
也 使 用 “时 刻 t 的 单词 ” 或 者 “时 刻 t 的 RNN 层 ” 这样 的 表述 。 





























由 图 5-8 可 以 看 出 ， 各 个 时 刻 的 RNN 层 接收 传 给 该 层 的 输入 和 前 一 个 
RNN 层 的 输出 ， 然 后 据 此 计算 当前 时 刻 的 输出 ， 此 时 进行 的 计算 可 以 用 下 
AE: 

















h: = tanh(ha AW», + xtWx + b) (5.9) 





首先 说 明 一 下 式 (5.9) 中 的 符号 。RNN 有 两 个 权重 ， 分 别 是 将 输入 z 
转化 为 输出 h 的 权重 We 和 将 前 一 个 RNN 层 的 输出 转化 为 当前 时 刻 的 输出 
的 权重 Whn。 此 外 ， 还 有 偏 置 5。 这 里 ，hs_1 和 zi 都 是 行 向 量 。 

在 式 (5.9) 中 ， 首 先 执行 矩阵 的 乘积 计算 ， 然 后 使 用 tanh 函数 CUI] 
正切 函数 ) 变换 它们 的 和 ， 其 结果 就 是 时 刻 t 的 输出 hi. X€ ha 一 方面 向 
上 输出 到 另 一 个 层 ， 另 一 方面 向 右 输出 到 下 一 个 RNN 层 ( 自身 )。 

观察 式 (5.9) 可 以 看 出 ， 现 在 的 输出 hi 是 由 前 一 个 输出 hs-1 计算 出 来 
的 。 从 另 一 个 角度 看 ， 这 可 以 解释 为 ，RNN 具有 “状态 ”hh， 并 以 式 (5.9) 
的 形式 被 更 新 。 这 就 是 说 RNN 层 是 “具有 状态 的 层 ” 或 “具有 存储 (记忆 ) 
的 层 ” 的 原因 。 


RNN 的 疡 存储 “状态 “， 时 间 每 前 进一步 (一 个 单位 )， 它 就 以 式 (5.9) 
的 形式 被 更 新 。 许 多 文献 中 将 RNN 的 输出 hi 称 为 隐藏 状态 (hidden 


state ) 或 隐藏 状态 向 量 (hidden state vector)， 本 书 中 也 是 如 此 。 

































































另外 ， 许 多 文献 中 将 展开 后 的 RNN 层 绘制 成 图 5-9 的 左 图 。 

在 图 5-9 的 左 图 中 ， 从 RNN 层 答 出 了 两 个 箭头 ， 但 是 请 注意 这 两 个 箭 
头 代 表 的 是 同一 份 数据 〈 准确 地 说 ， 是 同一 份 数据 被 复制 了 )。 在 本 书 中 ， 
和 之 前 一 样 ， 我 们 明确 地 在 图 中 显示 了 输出 处 存在 分 又 ， 如 图 5-9 的 右 图 
所 示 。 



























































一 般 的 画 法 本 书 中 的 画 ; 

















5-9 ”展开 后 的 RNN 层 的 画 法 比较 


5.2.3 Backpropagation Through Time 


将 RNN 层 展开 后 ， 就 可 以 视 为 在 水 平方 向 上 延伸 的 神经 网 络 ， 因 此 
RNN 的 学 习 可 以 用 与 普通 神经 网 络 的 学 习 相同 的 方式 进行 ， 如 图 5-10 所 示 。 


























5-10 ”将 循环 展开 后 的 RNN 层 的 误差 反 向 传播 法 


如 图 5-10 所 示 ， 将 循环 展开 后 的 RNN 可 以 使 用 (常规 的 ) 误差 反 向 
传播 法 。 换 句 话 说 ， 可 以 通过 先进 行 正 向 传播 ， 再 进行 反 向 传播 的 方式 求 目 
标 梯 度 。 因 为 这 里 的 误差 反 向 传播 法 是 “按时 间 顺 序 展开 的 神经 网 络 的 误差 
反 向 传播 法 ”， 所 以 称 为 Backpropagation Through Time (基于 时 间 的 反 
向 传播 )， 简 称 BPTT。 

通过 该 BPTT，RNN 的 学 习 似 乎 可 以 进行 了 ， 但 是 在 这 之 前 还 有 一 个 
必须 解决 的 问题 ， 那 就 是 学 习 长 时 序数 据 的 问题 。 因 为 随 着 时 序数 据 的 时 间 
跨度 的 增 大 ，BPTT 消耗 的 计算 机 资源 也 会 成 比例 地 增 大 。 另 外 ， 反 向 传播 
的 梯度 也 会 变 得 不 稳定 。 
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要 基于 BPTT 求 梯度 ， 必 须 在 内 存 中 保存 各 个 时 刻 的 RNN 层 的 中 
间 数 据 (RNN 层 的 反 向 传播 将 在 后 文中 说 明 )。 因 此 ， 随 着 时 序数 据 


变 长 ， 计 算 机 的 内 存 使 用 量 ( 不 仅仅 是 计算 量 ) 也 会 增加 。 

















5.2.4 Truncated BPTT 


在 处 理 长 时 序数 据 时 ， 通 常 的 做 法 是 将 网 络 连 接 截 成 适当 的 长 度 。 有 具 
体 来 说 ， 就 是 将 时 间 轴 方向 上 过 长 的 网 络 在 合适 的 位 置 进行 截断 ， 从 而 创建 
多 个 小 型 网 络 ， 然 后 对 截 出 来 的 小 型 网 络 执行 误差 反 向 传播 法 ， 这 个 方法 称 
X Truncated BPTT (截断 的 BPTT )。 


Truncated 是 “被 截断 ”的 意思 。Truncated BPTT 是 指 按 适当 长 
度 截断 的 误差 反 向 传播 法 。 


{E Truncated BPTT 中 ， 网 络 连接 被 截断 ， 但 严格 地 讲 ， 只 是 网 络 的 
反 向 传播 的 连接 被 截断 ， 正 向 传播 的 连接 依然 被 维持 ， 这 一 点 很 重要 。 也 就 
是 说 ， 正 向 传播 的 信息 没有 中 断 地 传播 。 与 此 相对 ， 反 癌 传播 则 被 截断 为 适 
当 的 长 度 ， 以 被 截 出 的 网 络 为 单位 进行 学 习 。 

现在 ， 我 们 结合 具体 的 例子 来 介绍 Truncated BPTT。 假设 有 一 个 长 
度 为 1000 的 时 序数 据 。 在 自然 语言 处 理 的 情况 下 ， 这 相当 于 一 个 有 1000 个 
单词 的 语料库 。 顺 便 说 一 下 ， 我 们 之 前 处 理 的 PTB 数据 集 将 多 个 串联 起 来 
的 句子 当 作 一 个 大 的 时 序数 据 。 这 里 也 一 样 ， 将 多 个 串联 起 来 的 句子 当 作 一 
个 时 序数 据 。 

在 处 理 长 度 为 1000 的 时 序数 据 时 ， 如 果 展 开 RNN 层 ， 它 将 成 为 在 水 
平方 向 上 排列 有 1000 个 层 的 网 络 。 当 然 ， 无 论 排列 多 少 层 ， 都 可 以 根据 误 
差 反 向 传播 法 计算 梯度 。 但 是 ， 如 果 序 列 太 长 ， 就 会 出 现 计算 量 或 者 内 存 使 
用 量 方面 的 问题 。 此 外 ， 随 着 层 变 长 ， 梯 度 逐 渐变 小 ， 梯 度 将 无 法 向 前 一 层 
传递 。 因 此 ， 如 图 5-11 所 示 ， 我 们 来 考虑 在 水 平方 向 上 以 适当 的 长 度 截断 
网 络 的 反 向 传播 的 连接 。 
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图 5-11 在 适当 位 置 截 断 反 向 传播 的 连接 。 这 里 ， 将 反 向 传播 的 连接 中 的 某 一 段 RNN 层 


称 为 “ 块 ( 块 的 背景 为 灰色 ) 


在 图 5-11 中 ,我 们 截断 了 反 向 传播 的 连接 ， 以 使 学 习 可 以 以 10 个 
RNN 层 为 单位 进行 。 像 这 样 ， 只 要 将 反 向 传播 的 连接 截断 ， 就 不 需要 再 考 
虑 块 范围 以 外 的 数据 了 ， 因 此 可 以 以 各 个 块 为 单位 〈《 和 其 他 块 没 有 关联 ) 完 








成 误差 反 向 传播 法 。 


这 里 需要 注意 的 是 ， 虽 然 反 向 传播 的 连 





连接 不 会 。 因 此 ， 在 进行 RNN 的 学 习 时 ， 





联 的 ， 这 意味 着 必须 按 顺 序 输入 数据 。 下 面 ， 




















接 会 被 截断 ， 但 是 正 向 传播 的 
必须 考虑 到 正 向 传播 之 间 是 有 关 
我 们 来 说 明 什 么 是 按 顺 序 输 入 

















a 





我 们 之 前 看 到 的 神经 网 络 在 进行 mini-batch 学习 时 ， 数 据 都 是 
随机 选择 的 。 但 是 ,在 RNN 执 行 Truncated BPTT 时， 数据 需 
要 按 顺 序 输入 








38 Hn 


现在 ， 我 们 考虑 使 用 Truncated BPTT 来 学 习 RNN。 我们 首先 要 做 的 





如 图 5-12 所 示 。 


是 ,将 第 1 个 块 的 输入 数据 (2o, - , w) 输入 RNN 层 。 这 里 要 进行 的 处 理 
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正 向 传播 ho hı ho 
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图 5-12 第 1 个 块 的 正 向 传播 和 反 向 传播 : 因为 从 后 面 的 时 刻 传 来 的 梯度 被 截断 ， 所 以 误 
差 反 向 传播 法 仅 在 本 块 内 进行 





如 图 5-12 所 示 ， 先 进行 正 向 传播 ， 再 进行 反 向 传播 ， 这 样 可 以 得 到 所 
需 的 梯度 。 接 着 ， 对 下 一 个 块 的 输入 数据 (210, 211, …, zi9) 执行 误差 反 向 
传播 法 ， 如 图 5-13 所 示 。 









































52 RNN | 189 

正 向 传播 hio hj hip 
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T10 211 Tıg 
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dao dai t dai 








5-13. 第 2 个 块 的 正 向 传播 和 反 向 传播 


这 里 ， 和 第 1 个 块 一 样 ， 先 执行 正 向 传播 ， 再 执行 反 向 传播 。 这 里 的 重 





B 
点 是 ， 


这 个 正 向 传播 的 计算 需要 前 一 个 块 最 后 的 
持 正 向 传播 的 连接 。 








隐藏 状态 hg， 这 样 可 以 维 





用 同样 的 方法 ,继续 学 习 第 3 个 块 ， 此 时 要 使 用 第 2 个 块 最 后 的 隐藏 状 
态 hi9。 像 这 样 ， 在 RNN 的 学 习 中 ， 通 过 将 数据 按 顺 序 输入 ， 从 而 继承 隐 
藏 状态 进行 学 习 。 根 据 到 目前 为 止 的 讨论 ， 可 知 RNN 的 学 习 流程 如 图 5-14 








所 示 。 
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图 5-14 Truncated BPTT 的 数据 处 理 顺 序 (参见 彩 图 ) 
如 图 5-14 所 示 ，Truncated BPTT 按 顺 序 输入 数据 ， 进 行 学 习 。 这 
样 一 来 ， 能 够 在 维持 正 向 传播 的 连接 的 同时 ， 以 块 为 单位 应 用 误差 反 向 传 
播 法 。 


52.5 Truncated BPTT 的 mini-batch 学 习 


到 目前 为 止 ,我们 在 探讨 Truncated BPTT HJ, 


并 没有 考虑 mini- 





batch 学 习 。 换 名 话说， 我 们 之 前 的 探讨 对 应 于 批 大 小 为 1 的 情况 。 为 了 执 


fT mini-batch 学 习 ， 需 要 考虑 批 数 据 ， 





数据 。 因 此 ， 在 输 


让 它 也 能 像 图 5-14 一 样 按 顺序 输入 
需要 在 各 个 批 次 中 进行 “ 偏 移 ”。 





全 人 数据 的 开始 位 置 ， 





为 了 说 明 “ 


的 例子 ， 对 长 度 为 1000 的 时 序数 据 ， 


ES 




















移 ”， 我 们 仍 用 上 一 节 的 通过 Truncated BPTT 进行 学 习 
以 时 间 长 度 10 为 单位 进行 截断 。 此 时 ， 





如 何 将 批 大 小 设 为 2 进行 学 习 呢 ? 在 这 种 情况 下 ， 作 为 RNN 层 的 输入 数据 ， 
第 1 笔 样本 数据 从 头 开始 按 顺 序 输入 ， 第 2 笔 数 据 从 第 500 个 数据 开始 按 顺 


序 输 入 。 也 就 是 说 ， 将 开始 位 置 平 移 500， 如 图 





5-15 所 示 。 





52 RNN | 191 
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5-15 ”在 进行 mini-batch 学 习 时 ， 在 各 批 次 (各 样本 ) 中 平移 输入 数据 的 开始 位 置 

















如 图 5-15 所 示 ， 批 次 的 第 1 个 元 素 是 20,.… ,x9， 批 次 的 第 2 个 元 素 
是 zx500,…, 2509， 将 这 个 mini-batch 作为 RNN 的 输入 数据 进行 学 习 。 
为 要 输入 的 数据 是 按 顺序 的 ， 所 以 接 下 来 是 时 序数 据 的 第 10 ~ 19 个 数据 和 
第 510 ~ 519 个 数据 。 像 这 样 ， 在 进行 mini-batch 学 习 时 ， 平移 各 批 次 输入 
数据 的 开始 位 置 ， 按 顺序 输入 。 此 外 ， 如 果 在 按 顺 序 输入 数据 的 过 程 中 遇 到 
了 结尾 ， 则 需要 设法 返回 头 部 。 

如 上 所 述 ， 虽 然 Truncated BPTT 的 原理 非常 简单 ， 但 是 关于 数据 的 
输入 方法 有 几 个 需要 注意 的 地 方 。 有 具体 而 言 ， 一 是 要 按 顺 序 输入 数据 ， 二 是 
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要 平移 各 批 次 ( 各 样本 ) 输入 数据 的 开始 位 置 。 这 里 的 探讨 有 些 复杂 ， 大 家 
一 时 间 可 能 还 不 能 理解 ， 之 后 通过 实际 查看 和 运行 代码 ， 相 信 大 家 就 能 够 理 
解 了 。 











5.5 RNN 的 实现 


通过 之 前 的 探讨 ， 我 们 已 经 看 到 了 RNN 的 全 貌 。 实 际 上 ， 我 们 要 实 
现 的 是 一 个 在 水 平方 向 上 延伸 的 神经 网 络 。 男 外 ， 考 虑 到 基于 Truncated 
BPTT 的 学 习 ， 只 需要 创建 一 个 在 水 平方 向 上 长 度 固定 的 网 络 序 列 即 可 ， 如 
图 5-16 所 示 。 
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图 5-16 基于 RNN 的 神经 网 络 : 在 水 平方 向 上 长 度 固定 


如 图 5-16 所 示 ， 目 标 神 经 网 络 接收 长 度 为 的 时 序数 据 ( 工 为 任意 值 )， 
输出 各 个 时 刻 的 隐藏 状态 了 个。 这 里 ， 考 虑 到 模块 化 ， 将 图 5-16 中 在 水 平 
方向 上 延伸 的 神经 网 络 实现 为 “一 个 层 "， 如 图 5-17 所 示 。 


5.3 RNN 的 实现 | 193 




















| hs 
BEND E EN EN u i ^ 
| = | 
E RNN RNN = RNN > — Time RNN 
a 
TS 
cs = (£0, £1, ,TT-1) 








图 5-17 Time RNN 层 : 将 展开 循环 后 的 层 视 为 一 个 层 


如 图 5-17 所 示 ， 将 垂直 方向 上 的 输入 和 输出 分 别 捆绑 在 一 起 ， 就 可 以 
将 水 平 排列 的 层 视 为 一 个 层 。 换 句 话 说， 可 以 将 (zo x1, , er) 捆绑 为 





zs 作为 输入 ， 


























将 (ho, hi,… hera) 捆绑 为 hs 作为 输出 。 这 里 ， 我 们 将 进 


fj Time RNN 层 中 的 单 步 处 理 的 层 称 为 “RNN 层 ”， 将 一 次 处 理工 步 的 层 
称 为 “Time RNNJZ", 


像 Time RNN 这 样 ， 将 整体 处 理 时 序数 据 的 层 以 单词 ”Time ” F 
头 命名 ， 这 是 本 书 中 规定 的 命名 规范 。 之 后 ， 我 们 还 会 实现 Time 


Affine 层 、Time Embedding 层 等 。 



































H 





我 们 接 下 来 进行 的 实现 的 流程 是 : 首先 ， 实 现 进 行 RNN 单 步 处 理 的 RNN 








类 ; 然后 ， 利 








j 这 个 RNN 类 ， 完 成 一 次 进行 工 步 处 理 的 TimeRNN 类 。 





5.3.1. RNN 层 的 实现 


现在 ， 我 们 来 实现 进行 RNN 单 步 处 理 的 RNN 类 。 首 先 复 习 一 下 RNN 
正 向 传播 的 数学 式 ， 如 式 (5.10) 所 示 : 





h = tanh(hi-1Wn + zi We + b) (5.10) 


这 里 ， 我 们 将 数据 整理 为 mini-batch 进行 处 理 。 因 此 ，zz CRI hi) 在 
行 方向 上 保存 各 样本 数据 。 在 和 矩阵 计算 中 ， 和 珑 阵 的 形状 检查 非常 重要 。 这 
里 ， 假 设 批 大 小 是 N,， 输入 向 量 的 维 数 是 D， 隐 藏 状态 向 量 的 维 数 是 H, 
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则 和 矩阵 的 形状 检查 可 以 像 下 面 这 样 进行 (图 5-18 )。 











NxH HxH NxD DxH NxH 








图 5-18 形状 检查 : 在 矩阵 乘积 中 ， 对 应 维度 的 元 素数 量 要 一 致 (这 里 省 略 偏 置 ) 





如 图 5-18 所 示 ， 通 过 矩阵 的 形状 检查 ， 可 以 确认 它 的 实现 是 否 正确 ， 
至 少 可 以 确认 它 的 计算 是 否 成 立 。 基 于 以 上 内 容 ， 现 在 我 们 给 出 RNN 类 的 初 
始 化 方法 和 正 向 传播 的 forward() 方法 (= common/time Layers.py )。 














class RNN: 
def | init (self, Wx, Wh, b): 
self.params = [Wx, Wh, b] 
self.grads = [np.zeros like(Wx), np.zeros like(Wh), 
=  np.zeros like(b)] 


self.cache = None 


de 


下 


forward(self, x, h prev): 

Wx, Wh, b = self.params 

t = np.dot(h prev, Wh) + np.dot(x, Wx) + b 
h next = np.tanh(t) 


self.cache = (x, h prev, h next) 
return h next 





RNN 的 初始 化 方法 接收 两 个 权重 参数 和 一 个 偏 置 参数 。 这 里 ， 将 通过 画 
数 参 数 传 进来 的 模型 参数 设置 为 列表 类 型 的 成 员 变 量 params。 然 后 ， 以 各 个 
参数 对 应 的 形状 初始 化 梯度 ， 并 保存 在 grads 中 。 最 后 ， 使 用 None 对 反 向 传 
播 时 要 用 到 的 中 间 数 据 cache 进行 初始 化 。 

正 向 传播 的 forward(x，h_prev) 方法 接收 两 个 参数 : 从 下 方 输入 的 x 和 
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从 左边 输入 的 h_prev。 剩 下 的 就 是 按 式 (5.10) 进行 实现 。 顺 便 说 一 下 ， 这 里 
从 前 一 个 RNN 层 接 收 的 输入 是 n_prev， 当 前 时 刻 的 RNN 层 的 输出 (= 下 
一 时 刻 的 RNN 层 的 输入 ) 是 h next; 

接 下 来 ， 我 们 继续 实现 RNN 的 反 向 传播 。 在 此 之 前 ， 让 我 们 通过 图 5-19 
的 计算 图 再 次 确认 一 下 RNN 的 正 向 传播 。 
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图 5-19 RNN 层 的 计算 图 (MatMul 节 点 表示 和 矩阵 乘积 ) 





RNN 层 的 正 向 传播 可 由 图 5-19 的 计算 图 表示 。 这 里 进行 的 计算 由 和 矩阵 
乘积 “MatMul”、 加 法 “+” 和 “tanh” 这 3 种 运算 构成 。 此 外 ， 因 为 偏 置 
b 的 加 法 运算 会 触发 广播 操作 ， 所 以 严格 地 讲 ， 这 里 还 应 该 加 上 Repeat 节 
点 。 不 过 简单 起 见 ， 这 里 省 略 了 它 ( 具体 请 参考 1.3.4.3 节 )。 

那么 , 图 5-19 的 计算 图 的 反 向 传播 是 什么 样 的 呢 ? 答案 很 简单 。 因 为 
这 3 种 运算 的 反 向 传播 我 们 都 已 经 掌握 了 (关于 反 向 传播 ， 请 参考 1.3 市 )， 
剩 下 就 是 基于 图 5-20， 按 正 向 传播 的 反方 向 实现 各 个 运算 的 反 向 传播 。 
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5-20 基于 RNN 层 的 计算 图 的 反 向 传播 


下 面 实现 RNN 层 的 backward()。 人 参考 图 5-20， 可 以 如 下 实现 。 


def backward(self, dh next): 
Wx, Wh, b = self.params 
x, h prev, h next = self.cache 


dt = dh next * (1 - h next ** 2) 
db = np.sum(dt, axis-0) 

dwh = np.dot(h prev.T, dt) 

dh prev = np.dot(dt, Wh.T) 

dwx = np.dot(x.T, dt) 

dx = np.dot(dt, Wx.T) 


self.grads[0][...] 
self.grads[1][...] 
self.grads[2][...] = db 


ll M 
Q o 
= E 
— x 


return dx, dh prev 
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以 上 就 是 RNN 层 的 反 向 传播 的 实现 。 接 下 来 ， 我 们 将 实现 Time RNN 层 。 


5.3.2 Time RNN 层 的 实现 


Time RNN 层 由 了 个 RNN 层 构成 (人 可 以 设置 为 任意 值 )， 如 图 5-21 
所 示 。 
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5-21 Time RNN 层 和 RNN 层 


由 图 5-21 可 知 ，Time RNN Æ TA RNN 层 连 接 起 来 的 网 络 。 我 们 
将 这 个 网 络 实现 为 Time RNN 层 。 这 里 ，RNN 层 的 隐藏 状态 h 保存 在 成 
员 变 量 中 。 如 图 5-22 所 示 ， 在 进行 隐藏 状态 的 “继承 ”时 会 用 到 它 。 


























保存 在 TimeRNN 类 的 
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| h ] 
| | ER | | | 
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5-22 Time RNN 层 将 隐藏 状态 保存 在 成 员 变 量 中 ， 以 在 块 之 间 继 承 隐藏 状态 


如 图 5-22 所 示 ， 我 们 使 用 Time RNN 层 管理 RNN 层 的 隐藏 状态 。 这 
样 一 来 ， 使 用 Time RNN 的 人 就 不 必 考 虑 RNN 层 的 隐藏 状态 的 “继承 工 
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WE To ASh, RTPH stateful 这 个 参数 来 控制 是 否 继承 隐藏 状态 。 
下 面 ， 我 们 来 看 一 下 Time RNN 层 的 实现 。 首 先 实现 初始 化 方法 和 两 
个 方法 (e common/time layers.py )。 


class TimeRNN: 
def init (self, Wx, Wh, b, stateful=False): 
self.params = [Wx, Wh, b] 
self.grads - [np.zeros like(Wx), np.zeros like(Wh), 
=  np.zeros like(b)] 
self.layers - None 


self.h, self.dh = None, None 
self.stateful - stateful 


de 


下 


set state(self, h): 
self.h= h 


de 


-h 


reset_state(self): 
self.h = None 





初始 化 方法 的 参数 有 权重 、 偏 置 和 布尔 型 (True/Fatse ) 的 stateful, 
一 个 成 员 变 量 Vayers 在 列表 中 保存 多 个 RNN 层 ， 另 一 个 成 员 变 量 ，h 保 
存 调用 forward() 方法 时 的 最 后 一 个 RNN 层 的 隐藏 状态 。 另 外 ,在 调用 
backward() IF, dh 保存 传 给 前 一 个 块 的 隐藏 状态 的 梯度 ( 关于 dh， 我 们 会 在 
反 向 传播 的 实现 中 说 明 )。 























考虑 到 TimeRNN 类 的 扩展 性 ， 将 设 定 Time RNN 层 的 隐藏 状态 的 
方法 实现 为 set_state(h) 。 另 外 ， 将 重 设 隐 藏 状态 的 方法 实现 为 


reset state() 。 




















上 述 参 数 中 的 stateful 是 “有 状态 ”的 意思 。 在 本 书 的 实现 中 ， 当 
stateful Jj True Hf, Time RNN 层 “ 有 状态 ”。 这 里 说 的 “有 状态 ”是 指 维 
ff Time RNN 层 的 隐藏 状态 。 也 就 是 说 ， 无 论 时 序数 据 多 长 ，Time RNN 
层 的 正 向 传播 都 可 以 不 中 断 地 进行 。 而 当 stateful 为 False 时 ， 每 次 调用 
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Time RNN 层 的 forward() 时 ， 第 一 个 RNN 层 的 隐藏 状态 都 会 被 初始 化 为 
FEE (所 有 元 素 均 为 0 的 矩阵 )。 这 是 没有 状态 的 模式 ， 称 为 “无 状态 ”。 












































在 处 理 长 时 序数 据 时 ， 需 要 维持 RNN 的 隐藏 状态 ， 这 一 功能 通 
常用 “stateful ”一 词 表 示 。 在 许多 深度 学 习 框架 中 ，RNN 层 都 有 


rf 










































































statefutL 参 数 ， 该 参数 用 于 指定 是 否 保存 上 一 时 刻 的 隐藏 状态 。 

















接着 ， 我 们 来 看 一 下 正 向 传播 的 实现 。 


def forward(self, xs): 
Wx, Wh, b = self.params 
N, T, D = xs.shape 
D, H = Wx.shape 


self.layers - [] 
hs = np.empty((N, T, H), dtypez'f') 


if not self.stateful or self.h is None: 
self.h = np.zeros((N, H), dtypez'f') 


for t in range(T): 
layer = RNN(*self.params) 
self.h = layer.forward(xs[:, t, :], self.h) 
hs[:, t, :] = self.h 
self.layers.append(layer) 


return hs 


正 向 传播 的 forward (xs) 方法 从 下 方 获取 输入 xs, xs 囊括 了 了 个 时 序数 
据 。 因 此 ， 如 果 批 大 小 是 N， 输 入 向 量 的 维 数 是 D， 则 xs 的 形状 为 (N,T,D)。 

在 首次 调用 时 (self.h 为 None E), RNN 层 的 隐藏 状态 h 由 所 有 元 素 
均 为 0 的 矩阵 初始 化 。 另 外 ， 在 成 员 变 量 stateful 为 False 的 情况 下 , h 将 
DEEE NFEE, 

在 主体 实现 中 ， 首 先 通过 hs=np.empty((N, T, H), dtype='f') 为 输出 准 
备 一 个 “容器 "。 接 着 ,在 T 次 for 循 环 中 ,生成 RNN 层 ， 并 将 其 添加 到 成 
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员 变 量 layers 中 。 然 后 ， 计 算 RNN 层 各 个 时 刻 的 隐藏 状态 ， 并 存放 在 hs 
的 对 应 索引 ( 时刻 











o 








— 























如 果 调 用 Time RNN 层 的 forward() 方 法 ， 则 成 员 变 量 h 中 将 存放 
最 后 一 个 RNN 层 的 隐藏 状态 。 在 statefuL 为 True 的 情况 下 ， 在 下 
一 次 调用 forward() 方法 时 ， 刚 才 的 成 员 变 量 h 将 被 继续 使 用 。 而 在 


stateful 为 False 的 情况 下 ， 成 员 变 量 h 将 被 重 置 为 零 向 量 。 
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接 下 来 是 Time RNN 层 的 反 向 传播 的 实现 。 用 计算 图 绘制 这 个 反 向 传 
播 ， 如 图 5-23 所 示 。 





hs tl dhe c (dh dh dhr 
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图 5-23 Time RNN 层 的 反 向 传播 


在 图 5-23 中 ,将 从 上 游 (输出 侧 的 层 ) 传 来 的 梯度 记 为 dhs， 将 流向 
下 游 的 梯度 记 为 dzs。 因 为 这 里 我 们 进行 的 是 Truncated BPTT， 所 以 不 需 
要 流向 这 个 块 上 一 时 刻 的 反 向 传播 。 不 过 ， 我 们 将 流向 上 一 时 刻 的 隐藏 状态 
的 梯度 存放 在 成 员 变 量 dh 中 。 这 是 因为 在 第 7 章 探 讨 seq2seq ( sequence- 
to-sequence， 序 列 到 序列 ) 时 会 用 到 它 〈 具体 请 参考 第 7 音 )。 

以 上 就 是 Time RNN 层 的 反 向 传播 的 全 貌 图 。 如 果 关 注 第 t 个 RNN 层 ， 
则 它 的 反 向 传播 如 图 5-24 所 示 。 
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图 5-24 第 上 个 RNN 层 的 反 向 传播 


从 上 方 传 来 的 梯度 dhs 和 从 将 来 的 层 传 来 的 梯度 dhuoxt 会 传 到 第 t 个 
RNN 层 。 这 里 需要 注意 的 是 ，RNN 层 的 正 向 传播 的 输出 有 两 个 分 又 。 在 正 
向 传播 存在 分 又 的 情况 下 ， 在 反 向 传播 时 各 梯度 将 被 求 和 。 因 此 ， 在 反 向 传 














如 下 所 示 。 


def backward(self, dhs): 
Wx, Wh, b = self.params 
N, T, H = dhs.shape 
D, H = Wx.shape 


dxs = np.empty((N, T, D), dtypez'f') 

dh = 0 

grads = [0, 0, 0] 

for t in reversed(range(T)): 
layer = self.layers[t] 
dx, dh = layer.backward(dhs[:, t, :] + dh) # 求 和 后 的 梯度 
dxs[:, t, :] = dx 


for i, grad in enumerate(layer.grads): 
grads[i] += grad 


for i, grad in enumerate(grads): 
self.grads[il[...] = grad 


self.dh = dh 


return dxs 


播 时 ， 流 向 RNN 层 的 是 求 和 后 的 梯度 。 考 虑 到 以 上 这 些 ， 反 向 传播 的 实现 
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这 里 ， 首 先 创 建 传 给 下 游 的 梯度 的 “容器 ”( dxs )。 接 着 ， 按 与 正 向 传 
播 相反 的 方向 ， 调 用 RNN 层 的 backward() 方法 ， 求 得 各 个 时 刻 的 梯度 dx, 
并 存放 在 dxs 的 对 应 索引 处 。 另 外 ， 关 于 权重 参数 ， 需 要 求 各 个 RNN 层 的 




























































































权重 梯度 的 和 和， 并 通过 “...” 用 最 终结 果 禾 盖 成 员 变 量 seLf.grads。 
在 Time RNN 层 中 有 多 个 RNN 层 。 另 外 ,这 些 RNN 层 使 用 i 
司 的 权重 。 因 此 ，Time RNN 层 的 (最 终 ) 权 重 梯度 是 各 个 RNN 
ZR EB ZA. 


以 上 就 是 对 Time RNN 层 的 实现 的 说 明 。 


5.4 处理 时 序数 据 的 层 的 实现 





本 章 我 们 的 目标 是 使 用 RNN 实现 语言 模型 。 目 前 我 们 已 经 实现 了 
RNN 层 和 整体 处 理 时 序数 据 的 Time RNN 层 ， 本 节 将 创建 几 个 可 以 处 
理 时 序数 据 的 新 层 。 我 们 将 基于 RNN 的 语言 模型 称 为 RNNLM (RNN 
Language Model, RNN 语言 模型 )。 现 在 ， 我 们 来 完成 RNNLM。 











5.4.1 RNNLM EE 

首先 ， 我 们 看 一 下 RNNLM 使 用 的 网 络 。 图 5-25 所 示 为 最 简单 的 
RNNLM 的 网 络 ， 其 中 左 图 显示 了 RNNLM 的 层 结构 ， 右 图 显示 了 在 时 间 
轴 上 展开 后 的 网 络 。 






































5.4 ”处 理 时 序数 据 的 层 的 实现 | 203 














































































































Yt Yo Yı Sus Vt 
n 4 n 4 
Softmax Softmax Softmax Softmax 
Affine Affine Affine Affine 
— * 
= 
RNN < RNN > RNN — RNN 
x 
Embedding Embedding Embedding Embedding 
W Wo wW ps Wi 











图 5-25 RNNLM 的 网 络 图 ( 左 图 是 展开 前 ， 右 图 是 展开 后 ) 





图 5-25 中 的 第 1 层 是 Embedding 层 ， 该 层 将 单词 ID 转化 为 单词 的 分 
布 式 表示 (单词 向 量 )。 然 后 ， 这 个 单词 向 量 被 输入 到 RNN 层 。RNN 层 向 
下 一 层 (上 方 ) 输出 隐藏 状态 ， 同 时 也 向 下 一 时 刻 的 RNN 层 ( 右 侧 ) 输出 
隐藏 状态 。RNN 层 向 上 方 输出 的 隐藏 状态 经 过 Affine 层 ， 传 给 Softmax 层 。 

现在 ， 我 们 仅 考 虑 正 向 传播 ， 向 图 5-25 的 神经 网 络 传人 具体 的 数据 ， 
并 观察 输出 结果 。 这 里 使 用 的 句子 还 是 我 们 熟悉 的 “you say goodbye and i 
say hello.”， 此 时 RNNLM 进行 的 处 理 如 图 5-26 所 示 。 
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图 5-26 处理 样 本 语料库 “you say goodbye and i say hello.” 的 RNNLM 的 例子 


如 图 5-26 所 示 ， 被 输入 的 数据 是 单词 ID 列表 。 首 先 ， 我们 关注 第 1 个 
时 刻 。 作 为 第 1 个 单词 ， 单 词 ID 为 0 的 you 被 输入 。 此 时 ， 查 看 Softmax 
层 输出 的 概率 分 布 ， 可 知 say 的 概率 最 高 ， 这 表明 正确 预测 出 了 you 后 面 出 
现 的 单词 为 say。 当 然 ， 这 样 的 正确 预测 只 在 有 “好 的 ”( 学 习 顺 利 的 ) 权 
重 时 才 会 发 生 。 

接着 ， 我 们 关注 第 2 个 单词 say。 此 时 ，Softmax 层 的 输出 在 goodbye 
处 和 hello 处 概率 较 高 。 确 实 ,“you say goodby” 和 “you say hello” 都 
是 很 自然 的 句子 〈 顺便 说 一 下 ， 正 确 答案 是 goodbye )。 这 里 需要 注意 的 是 ， 
RNN 层 “ 记 忆 ” 了 “you say” 这 一 上 下 文 。 更 准确 地 说 ，RNN 将 “you 
say” 这 一 过 去 的 信息 保存 为 了 简短 的 隐藏 状态 向 量 。RNN 层 的 工作 是 将 这 
个 信息 传送 到 上 方 的 Affine 层 和 下 一 时 刻 的 RNN 层 。 

像 这 样 ，RNNLM 可 以 “记忆 ”目前 为 止 输入 的 单词 ， 并 以 此 为 基础 预 
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测 接 下 来 会 出 现 的 单词 。RNN 层 通 过 从 过 去 到 现在 继承 并 传递 数据 ， 使 得 
编码 和 存储 过 去 的 信息 成 为 可 能 。 








5.4. Time 层 的 实现 

之 前 我 们 将 整体 处 理 时 序数 据 的 层 实 现 为 了 Time RNN 层 ， 这 里 也 同 
样 使 用 Time Embedding 层 、Time Affine 层 等 来 实现 整体 处 理 时 序数 据 的 
层 。 一旦 创建 了 这 些 Time XX 层 ， 我 们 的 目标 神经 网 络 就 可 以 像 图 5-27 这 
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5-27 ”将 整体 处 理 时 序数 据 的 层 实 现 为 Time XX 层 


























我 们 将 整体 处 理 售 有 了 个 时 序数 据 的 层 称 为 “Time XXE”. WR 
可 以 实现 这 些 层 ， 通 过 像 组 装 乐高 积木 一 样 组 装 它们 ， 就 可 以 完成 
处 理 时 序数 据 的 网 络 。 












































Time 层 的 实现 很 简单 。 比 如 ， 在 Time Affine 层 的 情况 下 ， 只 需要 像 
图 5-28 那样 ， 准 备 了 个 Affine 层 分 别处 理 各 个 时 刻 的 数据 即 可 。 
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5-28 将 Time Afine EMH T^^ Afine EES 


Time Embedding 层 也 一 样 ， 在 正 向 传播 时 准备 TT 个 Embedding 层 ， 


由 各 个 Embedding 层 处 理 各 个 时 刻 的 数据 。 
关于 Time Affine JZ fll Time Embedding 层 没有 什么 特别 难 的 内 容 ， 











我 们 就 不 再 获 述 了 。 需 要 注意 的 是 ，Time Affine 层 并 不 是 单纯 地 使 用 了 个 
Affine 层 ， 而 是 使 用 矩阵 运算 实现 了 高 效 的 整体 处 理 。 感 兴趣 的 读者 可 以 参 
考 源 代码 (common/time layers.py 的 TimeAffine 类 )。 接 下 来 我 们 看 一 下 时 
序 版 本 的 Softmax。 

我 们 在 Softmax 中 一 并 实现 损失 误差 Cross Entropy Error 层 。 这 里 ， 
按照 图 5-29 所 示 的 网 络 结构 实现 Time Softmax with Loss 层 。 
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图 5-29 Time Softmax with Loss BAJSE] 





图 5-29 中 的 zo、z1 等 数据 表示 从 下 方 的 层 传 来 的 得 分 ( 得 分 是 正规 
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化 为 





概率 之 前 的 值 )， to. ti 等 数据 表示 正确 解 标签 。 如 该 图 所 示 , TA 


Softmax with Loss 层 各 自 算出 损失 ， 然 后 将 它们 加 在 一 起 取 平均 ， 将 得 到 


的 值 





具体 
再 除 
平均 ， 


现 可 


5.5 


并 对 

















作为 最 终 的 损失 。 此 处 进行 的 计算 可 用 下 式 表示 : 











1 
P p (Lo E Lied L4) (5.11) 


顺便 说 一 下 ， 本 书 的 Softmax with Loss 层 计算 mini-batch 的 平均 损失 。 
而 言 ， 假 设 mini-batch 有 N 笔 数据 ， 通 过 先 求 N 笔 数据 的 损失 之 和 ， 
以 N， 可 以 得 到 单 笔 数 据 的 平均 损失 。 这 里 也 一 样 ， 通 过 取 时 序数 据 的 
可 以 求 得 单 笔 数 据 的 平均 损失 作为 最 终 的 输出 。 

以 上 就 是 对 Time 层 的 说 明 。 这 里 只 是 做 了 一 个 简短 的 说 明 ， 实 际 的 实 
以 在 common/time layers.py 中 找到 ， 感 兴趣 的 读者 可 以 参考 一 下 。 











RNNLM 的 学 习 和 评价 


M RNNLM 所 需要 的 层 都 已 经 准备 好 了 ， 现 在 我 们 来 实现 RNNLM， 
进行 训练 ， 然 后 再 评价 一 下 它 的 结 





实 
其 





5.5.1 RNNLM 的 实现 


5-30 








D) 





的 网 络 实现 为 SimpleRnnlm 类 ， 其 层 结构 如 图 





这 里 我 们 将 RNNLM 使 
所 示 。 
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5-30 SimpleRnnlm 的 层 结构 : RNN 层 的 状态 在 类 内 部 进行 管理 


如 图 5-30 所 示 ，SimpteRnntn 类 是 一 个 堆 琶 了 4 个 Time 层 的 神经 网 络 。 
我 们 先 来 看 一 下 初始 化 的 代码 (= ch05/simple_rnntm.py )。 





import sys 

sys.path.append('..') 

import numpy as np 

from common.time layers import * 


class SimpleRnnlim: 
def | init (self, vocab size, wordvec size, hidden size): 
V, D, H = vocab size, wordvec size, hidden size 
rn = np.random.randn 


3: 初始 化 权重 
embed W = (rn(V, D) / 100).astype('f') 
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rnn Wx = (rn(D, H) / np.sqrt(D)).astype('f') 
rnn Wh = (rn(H, H) / np.sqrt(H)).astype('f') 
rnn b = np.zeros(H).astype('f') 

affine W = (rn(H, V) / np.sqrt(H)).astype('f') 
affine b - np.zeros(V).astype('f') 





3 生成 层 
self.layers = [ 
TimeEmbedding(embed W), 
TimeRNN(rnn Wx, rnn Wh, rnn b, stateful-True), 
TimeAffine(affine W, affine b) 





] 
self.loss layer - TimeSoftmaxWithLoss() 
self.rnn layer = self.layers[1] 


# 将 所 有 的 权重 和 梯度 整理 到 列表 中 

self.params, self.grads = [], [] 

for layer in self.layers: 
self.params += layer.params 
self.grads += layer.grads 





这 里 ， 对 各 个 层 使 用 的 参数 ( 权重 和 偏 置 ) 进 行 初始 化 ， 生 成 必要 的 层 。 
设 使 用 Truncated BPTT 进行 学 习 , 将 Time RNN 层 的 stateful 设置 为 
True， 如 此 Time RNN 层 就 可 以 继承 上 一 时 刻 的 隐藏 状态 。 

另外 ,在 上 面 的 初始 化 代码 中 ，RNN 层 和 Affine 层 使 用 了 “Xavier 初 
始 值 ”。 如 图 5-31 所 示 ， 在 上 一 层 的 节点 数 是 m 的 情况 下 ， 使 用 标准 差 为 
万 的 分 布 作为 Xavier 初始 值 了 。 顺 便 说 一 下 ， 标 准 差 可 以 直观 地 解释 为 表 
示 数 据 分 散 程度 的 指标 。 


















































(D 这 是 一 个 简略 版 的 实现 ， 原 始 论文 中 提出 的 权重 初始 值 还 考虑 了 下 一 层 的 节点 数 。 























p 一 使 用 标准 差 为 = 的 分 布 进行 初始 化 
































5-31 Xavier 初 始 值 : 在 上 一 层 有 mn 个 节点 的 情况 下 ,使 用 标准 差 为 7 B3 o E78 
初始 值 


























在 深度 学 习 中 ， 权 重 的 初始 值 非常 重要 。 关 于 这 一 点 ， 我 们 在 前 
作 《 深 度 学 习 入 门 : 基于 Python 的 理论 与 实现 》 中 已 经 进行 了 详 
细 的 探讨 。 同 样 ， 对 RNN 而 言 ， 权 重 的 初始 值 也 很 重要 。 通 过 
设置 好 的 初始 值 ， 学 习 的 进展 和 最 终 的 精度 都 会 有 很 大 变化 。 本 
书 此 后 都 将 使 用 Xavier 初 始 值 作为 权重 的 初始 值 。 另 外 ， 在 语 
言 模型 的 相关 研究 中 ， 经 常 使 用 0.01 * np.random.uniform(...) 
这 样 的 经 过 缩放 的 均匀 分 布 。 
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接着 ， 我 们 来 实现 forward() 方法 、backward() 方法 和 reset state() 方法 。 


def forward(self, xs, ts): 
for layer in self.layers: 
xs = layer.forward(xs) 
loss = self.loss layer.forward(xs, ts) 
return loss 


def backward(self, doutz1): 
dout = self.loss layer.backward(dout) 
for layer in reversed(self.layers): 
dout = layer.backward(dout) 
return dout 
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def reset state(self): 
self.rnn layer.reset state() 





可 以 看 出 实现 非常 简单 。 在 各 个 层 中 ， 正 向 传播 和 反 向 传播 都 正确 地 进 
行 了 实现 。 因 此 ， 我 们 只 要 以 正确 的 顺序 调用 forward() (或 者 backward() ) 
即 可 。 方便 起 见 ， 这 里 将 重 设 网 络 状态 的 方法 实现 为 reset_state()。 以 上 
就 是 对 SimpleRnnlm 类 的 说 明 。 








5.52 ”语言 模型 的 评价 

SimpteRnntm 的 实现 结束 了 ， 接 下 来 要 做 的 就 是 向 这 个 网 络 输入 数据 进行 
学 习 。 在 实现 用 于 学 习 的 代码 之 前 ， 我 们 先 来 讨论 一 下 语言 模型 的 评价 方法 。 

语言 模型 基于 给 定 的 已 经 出 现 的 单词 (信息 ) 输出 将 要 出 现 的 单词 的 概 
率 分 布 。 困 感度 (perplexity ) 常 被 用 作 评 价 语言 模型 的 预测 性 能 的 指标 。 

简单 地 说 ， 困 惑 度 表 示 “ 概 率 的 倒数 ”( 这 个 解释 在 数据 量 为 1 时 严格 一 
致 )。 为 了 说 明 概率 的 倒数 ， 我 们 仍旧 考虑 “you say goodbye and i say hello." 
这 一 语料库 。 假 设 在 向 语言 模型 “模型 1” 传 人 单词 you 时 会 输出 图 5-32 的 
左 图 所 示 的 概率 分 布 。 此 时 ， 下 一 个 出 现 的 单词 是 say 的 概率 为 0.8， 这 是 一 
个 相当 不 错 的 预测 。 取 这 个 概率 的 倒数 ， 可 以 计算 出 困惑 度 为 忘 = 1.25。 
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5-32 ” 当 输 入 单词 you 时 ， 模 型 输出 下 一 个 出 现 的 单词 的 概率 分 布 








而 图 5-32 右 侧 的 模型 (“模型 2”) 预测 出 的 正确 单词 的 概率 为 0.2， 这 
显然 是 一 个 很 差 的 预测 ， 此 时 的 困惑 度 为 记 = 5. 

总 结 一 下 ,“ 模 型 1” 能 准确 地 预测 ， 困 惑 度 是 1.25; “模型 2” 的 预测 
未 能 命中 ， 困 惑 度 是 5.0。 此 例 表明 ， 困 惑 度 越 小 越 好 。 
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那么 ， 如 何 直观 地 解释 值 1.25 和 5.0 呢 ? 它们 可 以 解释 为 “分 又 度 ”。 
所 谓 分 又 度 ， 是 指 下 一 个 可 以 选择 的 选项 的 数量 (下 一 个 可 能 出 现 的 单词 的 
候选 个 数 )。 在 刚才 的 例子 中 ， 好 的 预测 模型 的 分 又 度 是 1.25， 这 意味 着 下 
一 个 要 出 现 的 单词 的 候选 个 数 可 以 控制 在 1 个 左右 。 而 在 差 的 模型 中 ， 下 一 
个 单词 的 候选 个 数 有 5 个 。 


如 上 面 的 例子 所 示 ， 基 于 困惑 度 可 以 评价 模型 的 预测 性 能 。 好 的 模 
型 可 以 高 概率 地 预测 出 正确 单词 ， 所 以 困惑 度 较 小 (困惑 度 的 最 小 


值 是 1.0) ; 而 差 的 模型 只 能 低 概 率 地 预测 出 正确 单词 ， 困 惑 度 较 大 。 






























































































































































以 上 都 是 输入 数据 为 1 个 时 的 困惑 度 。 那 么 ， 在 输入 数据 为 多 个 的 情况 
下 ， 结 果 会 怎样 呢 ? 我 们 可 以 根据 下 面 的 式 子 进行 计算 。 


























I 
L= =r Ank log Ynk (5.12) 
n k 
困惑 度 = el (5.13) 


这 里 ,假设 数据 量 为 N 个 。t Æ one-hot 向 量 形式 的 正确 解 标签 ，tnx K 
示 第 nn 个 数据 的 第 个 值 ，ymx 表示 概率 分 布 (神经 网 络 中 的 Softmax 的 
渝 出 )。 顺 便 说 一 下 ， 工 是 神经 网 络 的 损失 ， 和 式 (1.8) 完全 相同 ， 使 用 这 个 
工 计算 出 的 er 就 是 困惑 度 。 

式 子 (5.12) 看 上 去 有 些 复杂 ， 但 是 前 面 我 们 介绍 的 数据 量 为 1 时 的 “ 概 
率 的 倒数 "“ 分 又 度 ”“ 候 选 个 数 ” 等 在 这 里 也 通用 。 也 就 是 说 ， 困 惑 度 越 小 ， 
分 又 度 越 小 ， 表 明 模 型 越 好 。 


在 信息 论 领 域 ， 困 惑 度 也 称 为 “平均 分 叉 度 。 这 可 以 解释 为 ， 数 
量 为 1 时 的 分 叉 度 是 数据 量 为 Y 时 的 分 叉 度 的 平均 值 。 
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5.5.3 RNNLM 的 学 习 代 码 


(训练 数据 ) 的 前 1000 个 单词 。 这 是 因为 在 本 节 实 现 的 RNNLM 中 ， 即 便 


























下 面 ， 我 们 使 用 PTB 数据 集 进行 学 习 ， 不 过 这 里 仅 使 用 PTB 数据 集 














使 用 所 有 的 训练 数据 ， 也 得 不 出 好 的 结果 。 下 一 章 我 们 将 对 它 进 行 改进 。 下 














看 我 们 先 来 看 一 下 学 习 用 的 代码 (= chg5/train_custom_ Loop.py )。 


import sys 

sys.path.append('..') 

import matplotlib.pyplot as plt 
import numpy as np 

from common.optimizer import SGD 
from dataset import ptb 

from simple rnnlm import SimpleRnnlm 


# 设 定 超 参数 

batch size = 10 

wordvec size - 100 

hidden size = 100 # RNN 的 隐藏 状态 向 量 的 元 素 个 数 
time size = 5 # Truncated BPTT 的 时 间 跨 度 大 小 
lr=0.1 

max_epoch = 100 





~ 


# 读 入 训练 数据 (缩小 了 数据 集 
corpus, word to id, id to word = ptb.load data('train') 
corpus size - 1000 

corpus = corpus[:corpus size] 

vocab size = int(max(corpus) + 1) 


xs = corpus[:-1] £ 输入 

ts = corpus[1:] # 输出 (监督 标签 ) 

data size = len(xs) 

print('corpus size: 5d, vocabulary size: %d' % (corpus size, vocab size)) 





# 学 习 用 的 参数 
max iters = data size // (batch size * time size) 














time idx = 0 
total loss = 0 


| 第 5 章 RNN 








loss count = 0 
ppl list = [] 


3 生成 模型 
model = SimpleRnnlm(vocab size, wordvec size, hidden size) 
optimizer - SGD(lr) 





* @ 计算 读 人 mini-batch 的 各 笔 样本 数据 的 开始 位 置 


jump = (corpus size - 1) // batch size 





offsets - [i * jump for i in range(batch size)] 


for epoch in range(max epoch): 
for iter in range(max iters): 
# 四 获取 mini-batch 
batch x = np.empty((batch size, time size), dtype-'i') 
batch t = np.empty((batch size, time size), dtype-'i') 
for t in range(time size): 
for i, offset in enumerate(offsets): 
batch x[i, t 
Darchan [Mt 
time idx += 1 


= xs[(offset + time idx data size] 


] 
] 


o? ge 


) 
= ts[(offset + time idx) data size] 





# 计算 梯度 ， 更 新 参数 

loss = model.forward(batch x, batch t) 
model.backward() 
optimizer.update(model.params, model.grads) 
total loss += loss 

loss count += 1 


# 6 各 个 epoch 的 困惑 度 评价 

ppl = np.exp(total loss / loss count) 

print('| epoch %d | perplexity %.2f' 
% (epoch+1, ppl)) 

ppl_list.append(float(ppl)) 

total loss, loss count = 0, 0 








以 上 就 是 学 习 用 的 代码 ， 这 和 我 们 之 前 看 到 的 神经 网 络 的 学 习 基本 上 是 
一 样 的 。 不 过 ， 从 宏观 上 看 ， 仍 有 两 点 和 之 前 的 学 ond 即 “ 数 据 的 
es 和 “困惑 度 的 计算 ”。 这 里 ， 我 们 将 重点 关注 这 两 点 ， 并 对 代码 
进行 说 明 。 








I 
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首先 是 数据 的 输入 方式 。 这 里 我 们 使 用 Truncated BPTT 进行 学 习 ， 
因此 数据 需要 按 顺序 输入 ， 并 且 mini-batch 的 各 批 次 要 平移 读 入 数据 的 开 
始 位 置 。 在 源 代码 @ 处 ， 计 算 各 批 次 读 入 数据 的 开始 位 置 offsets。offsets 
的 各 个 元 素 中 存放 了 读 入 数据 的 开始 位 置 〈 偏 移 量 )。 

接着 ， 在 源 代码 @ 处 ， 按 顺序 读 入 数据 。 首 先 准备 容器 batch x 和 
batch t， 然 后 依次 增加 time idx 变量 ， 将 time idx 处 的 数据 从 语料库 中 取 
出 。 这 里 利用 @ 中 计算 好 的 offsets， 各 批 次 增加 偏 移 量 。 另 外 ， 当 读 入 语 
料 库 的 位 置 超过 语料库 大 小 时 ， 为 了 回 到 语料库 的 开头 处 ， 将 当前 位 置 除 以 
语料库 大 小 后 的 余数 作为 索引 使 用 。 

最 后 ， 基 于 式 (5.12) 计算 困惑 度 ， 这 在 代码 @ 处 完成 。 为 了 求 每 个 
epoch 的 困惑 度 ， 需 要 计算 每 个 epoch 的 平均 损失 ， 然 后 再 据 此 求 困 惑 度 。 

以 上 就 是 对 代码 的 说 明 ， 现 在 我 们 看 一 下 学 习 结 果 。 在 上 面 的 代码 中 ， 
各 个 epoch 的 困惑 度 的 结果 都 保存 在 了 perptexity_List 中 ， 我 们 可 以 将 它 
绘制 出 来 ， 如 图 5-33 所 示 。 











































































































ka LR 














0 20 40 60 80 100 
epochs 











5-33 ”困惑 度 的 演变 
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由 图 5-33 可 知 ， 随 着 学 习 的 进行 ， 困 惑 度 稳步 下 降 。 一 开始 超过 300 
的 困惑 度 到 最 后 接近 1 ( 最 小 值 ) 了 。 不 过 这 里 使 用 的 是 很 小 的 语料库 ,在 
实际 情况 下 ， 当 语料库 增 大 时 ， 现 在 的 模型 根本 无 法 招架 。 下 一 章 我 们 将 指 
出 当前 RNNLM 存在 的 问题 ， 并 进行 改进 。 














5.5.4 RNNLM 的 Trainer 类 

本 书 提供 了 用 于 学 习 RNNLM 的 Rnntmrrainer 类 ， 其 内 部 封装 了 刚才 
的 RNNLM 的 学 习 。 将 刚才 的 学 习 代码 重 构 为 RnntmTrainer 类 ， 结 果 如 下 。 
这 里 只 摘录 源 代码 的 一 部 分 (全 部 代码 在 ch05/train.py 中 )。 

















from common.trainer import RnnlmTrainer 


model = SimpleRnnlm(vocab size, wordvec size, hidden size) 
optimizer = SGD(lr) 
trainer = RnnlmTrainer(model, optimizer) 


trainer.fit(xs, ts, max epoch, batch size, time size) 





如 上 所 示 ， 首 先 使 用 modet 和 optimizer 初始 化 RnntmTrainer 类 ， 然 后 
调用 fit() ， 完 成 学 习 。 此 时 ，RnntmTrainer 类 的 内 部 将 执行 上 一 节 进 行 的 
一 系列 操作 ， 具 体 如 下 所 示 。 


























e 按 顺 序 生成 mini-batch 

e 调用 模型 的 正 向 传播 和 反 向 传播 
e 使 用 优化 器 更 新 权重 

。 评价 困惑 度 











RnnLmTrainer 类 与 1.4.4 节 中 介绍 的 Trainer 类 有 相同 的 API。 神 
经 网 络 的 常规 学 习 使 用 Trainer 类 , 而 RNNLM 的 学 习 则 使 用 


RnntmTrainer 类 。 
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使 用 RnntmTrainer 类 ， 可 以 避免 每 次 写 重 复 的 代码 。 本 书 的 剩余 部 分 都 


将 使 用 RnntmTrainer 类 学 习 RNNLM。 





5.6 小 结 


本 章 的 主题 是 RNN。RNN 通过 数据 的 循环 ， 从 过 去 继承 数据 并 传递 





到 现在 和 未 来 。 如 此 ，RNN 层 的 内 部 获得 了 记忆 隐藏 状态 的 能 力 。 本 书 





RNN 层 )。 





中 我 们 花 了 很 多 时 间 说 明 RNN 层 的 结构 ， 并 实现 了 RNN 层 (和 Time 














本 章 还 利用 RNN 创建 了 语言 模型 。 语 言 模型 给 单词 序列 赋 概 率 值 。 特 














别 地 ， 条 件 语言 模型 从 已 经 出 现 的 单词 序列 计算 下 一 个 将 要 出 现 的 单词 的 概 
率 。 通 过 构成 利用 了 RNN 的 神经 网 络 ， 理 论 上 无 论 多 么 长 的 时 序数 据 ， 都 
可 以 将 它 的 重要 信息 记录 在 RNN 的 隐藏 状态 中 。 但 是 ， 在 实际 问题 中 ， 这 
样 一 来 ， 许 多 情况 下 学 习 将 无 法 顺利 进行 。 下 一 章 我 们 将 指出 RNN 存在 的 
问题 ， 并 研究 替代 RNN 的 LSTM 层 或 GRU 层 。 这 些 层 在 处 理 时 序数 据 方 




















面 非常 重要 ， 被 广泛 用 于 前 沿 研 究 。 
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RNN 具有 环 路 ， 因 此 可 以 在 内 部 记忆 隐藏 状态 
通过 展开 RNN 的 循环 ， 可 以 将 其 解释 为 多 个 RNN 层 连接 起 来 的 神 
经 网 络 ， 可 以 通过 常规 的 误差 反 向 传播 法 进行 学 习 (= BPTT ) 
在 学 习 长 时 序数 据 时 ， 要 生成 长 度 适 中 的 数据 块 ， 进 行 以 块 为 单位 
HJ BPTT 2£2J ( 2 Truncated BPTT ) 
Truncated BPTT 只 截断 反 向 传播 的 连接 
在 Truncated BPTT 中 ， 为 了 维持 正 向 传播 的 连接 ， 需 要 按 顺 序 输 
人 数据 
语言 模型 将 单词 序列 解释 为 概率 

理论 上 ， 使 用 RNN 层 的 条 件 语言 模型 可 以 记忆 所 有 已 出 现 单词 的 


Es 


言 息 
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上 一 章 的 RNN 存在 环 路 ， 可 以 记忆 过 去 的 信息 ， 其 结构 非常 简单 ， 易 
于 实现 。 不 过 ， 遗 憾 的 是 ， 这 个 RNN 的 效果 并 不 好 。 原 因 在 于 ， 许 多 情况 
下 它 都 无 法 很 好 地 学 习 到 时 序数 据 的 长 期 依赖 关系 。 

现在 ， 上 一 章 的 简单 RNN 经 常 被 名 为 LSTM 或 GRU 的 层 所 代替 。 实 
mE, HRM RNN 时 ， 更 多 的 是 指 LSTM 层 ， 而 不 是 上 一 章 的 RNN。 
顺便 说 一 句 ， 当 需要 明确 指 上 一 章 的 RNN Bp, 我 们 会 说 “简单 RNN” 或 
"Elman", 

LSTM 和 GRU 中 增加 了 一 种 名 为 “ 门 ”的 结构 。 基 于 这 个 门 ， 可 以 学 
习 到 时 序数 据 的 长 期 依赖 关系 。 本 章 我 们 将 指出 上 一 章 的 RNN 的 问题 ， 介 
绍 代替 它 的 LSTM 和 GRU 等 “Gated RNN”。 特 别 是 我 们 将 花 很 多 时 间 研 
究 LSTM 的 结构 ， 并 揭示 它 实现 “长 期 记忆 ”的 机 制 。 此 外 ， 我 们 将 使 
LSTM 创建 语言 模型 ， 并 展示 它 可 以 在 实际 数据 上 很 好 地 学 习 。 



































a 
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6.1 RNN 的 问题 


上 一 章 介 绍 的 RNN 之 所 以 不 擅长 学 习 时 序数 据 的 长 期 依赖 关系 ,是 因 
为 BPTT 会 发 生 梯度 消失 和 梯度 爆炸 的 问题 。 丁 我 们 将 首先 回顾 一 下 上 
一 章 介绍 的 RNN 层 ， 并 通过 一 个 实际 的 例子 来 说 明 为 什么 RNN 层 不 擅长 
长 期 记忆 。 





6.1.1 RNN 的 复习 





RNN 层 存在 环 路 。 如 果 展 开 它 的 循环 ， 它 将 变 成 一 个 在 水 平方 向 上 延 
伸 的 网 络 ， 如 图 6-1 所 示 。 

















Tt 20 21 T2 - d, 











图 6-1 RNN 层 : 循环 展开 前 和 展开 后 


在 图 6-1 中 ， 当 输入 时 序数 据 zz 时 ，RNN 层 输出 he。 这 个 hi 也 称 为 
RNN 层 的 隐藏 状态 ， 它 记录 过 去 的 信息 。 

RNN 的 特点 在 于 使 用 了 上 一 时 刻 的 隐藏 状态 ， 由 此 ，RNN 可 以 继承 过 
去 的 信息 。 顺 便 说 一 下 ， 如 果 用 计算 图 来 表示 此 时 RNN 层 进行 的 处 理 ， 则 
有 图 6-2。 
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6-2 RNN 层 的 计算 图 (MatMul 节 点 表示 和 矩阵 乘积 ) 





如 图 6-2 所 示 ，RNN 层 的 正 向 传播 进行 的 计算 由 和 抢 阵 乘积 、 抢 阵 加 法 
和 基于 激活 函数 tanh 的 变换 构成 ， 这 就 是 我 们 上 一 章 看 到 的 RNN 层 。 下 
面 ， 我 们 看 一 下 这 个 RNN 层 存在 的 问题 ( 关于 长 期 记忆 的 问题 )。 








6.1.2 ”梯度 消失 和 梯度 爆炸 

语言 模型 的 任务 是 根据 已 经 出 现 的 单词 预测 下 一 个 将 要 出 现 的 单词 。 上 
一 章 我 们 实现 了 基于 RNN 的 语言 模型 RNNLM， 这 里 借 着 探讨 RNNLM 
问题 的 机 会 ， 我 们 再 来 考虑 一 下 图 6-3 所 示 的 任务 。 











Tom was watching TV in his room. Mary came into the room. Mary said hi to ? 











6-3” 某 种 程度 上 需要 “长 期 记忆 ”的 问题 示例 :“?” 中 应 填 入 什么 单词 ? 





如 前 所 述 ， 填 人 “?” 中 的 单词 应 该 是 Tom。 要 正确 回答 这 个 问题 ， 
RNNLM 需要 记 住 “Tom 在 房间 看 电视 ，Mary 进 了 房间 ”这 些 信息 。 这 些 
信息 必须 被 编码 并 保存 在 RNN 层 的 隐藏 状态 中 。 





222 





| 第 6 章 Gated RNN 





现在 让 我 们 站 在 RNNLM 进行 学 习 的 角度 来 考虑 上 述 问 题 。 在 正太 
的 梯度 是 如 何 传播 的 呢 ? 这 里 我 们 使 用 BPTT 
解 标 签 Tom 出 现 的 地 方向 过 去 的 方向 传播 ， 


标签 为 Tom 时 ，RNNLM 中 
进行 学 习 ， 因 此 梯度 将 从 正确 


如 图 6-4 所 示 。 
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6-4 ”正确 解 标签 为 Tom 时 梯度 的 流动 





在 学 习 正 确 解 标签 Tom 时 ， 重 要 的 是 RNN 层 的 存在 。RNN 层 通 过 
向 过 去 传递 “有 意义 的 梯度 ”， 能 够 学 习 时 间 方 向 上 的 依赖 关系 。 此 时 梯度 
(理论 上 ) 包含 了 那些 应 该 学 到 的 有 意义 的 信息 ， 通 过 将 这 些 信息 向 过 去 传 














递 ，RNN 层 学 习 长 期 的 依赖 关系 。 但 是 ， 如 果 这 个 梯度 在 中 途 变 弱 ( 甚至 


没有 包含 任何 信息 )， 则 权重 参数 将 不 会 被 更 新 
习 长 期 的 依赖 关系 。 不 幸 的 是 ， 随 着 时 间 的 











。 也 就 是 说 ，RNN 层 无 法 学 





回 湖 ， 这 个 简单 RNN 未 能 避免 


梯度 变 小 ( 梯度 消失 ) 或 者 梯度 变 大 ( 梯度 爆炸 ) 的 命运 。 
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6.1.3 ”梯度 消失 和 梯度 爆炸 的 原因 


现在 ,我们 深 挖 一 下 RNN 层 中 梯度 消失 (或 者 梯度 爆炸 ) 的 起 因 。 如 
图 6-5 所 示 ， 这 里 仅 关注 RNN 层 在 时 间 方向 上 的 梯度 传播 。 
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6-5 RNN 层 在 时 间 方 向 上 的 梯度 传播 





如 图 6-5 所 示 ， 这 里 考虑 长 度 为 工 的 时 序数 据 ， 关 注 从 第 工 个 正确 解 
标签 传递 出 的 梯度 如 何 变化 。 就 上 面 的 问题 来 说 ， 这 相当 于 第 工 个 正确 解 标 
签 是 Tom 的 情形 。 此 时 ， 关 注 时 间 方 向 上 的 梯度 ， 可 知 反 向 传播 的 梯度 流 
经 tanh, “+ M MatMul ( 矩阵 乘积 ) 运算 。 

“十 ”的 反 向 传播 将 上 游 传 来 的 梯度 原样 传 给 下 游 ， 因 此 梯度 的 值 不 变 。 
那么 , RFH tanh 和 MatMul 运算 会 怎样 变化 呢 ? 我 们 先 来 看 一 下 tanh。 

附录 A 中 会 详细 说 明 。 当 y = tanh(z) 时 ， 它 的 导数 是 型 —1- y, 
此 时 , 将 y= tanh(z) 的 值 及 其 导数 的 值 分 别 画 在 图 上 ， 如 图 6-6 所 示 。 






























































224 | 第 6 章 Gated RNN 
































图 6-6 y= tanh(z) 的 图 (虚线 是 导数 ) 





图 6-6 中 的 虚线 是 y = tanh(z) 的 导数 。 从 图 中 可 以 看 出 ， 它 的 值 小 于 

1.0， 并 且 随 着 c 远离 0， 它 的 值 在 变 小 。 这 意味 着 ， 当 反 向 传播 的 梯度 经 过 

tanh 节点 时 ， 它 的 值 会 越 来 越 小 。 因 此 ， 如 果 经 过 tanh KATA, MEE 
会 减 小 了 次 。 


























RNN 层 的 激活 函数 一 般 使 用 tanh 函数 ， 但 是 如 果 改 为 ReLU 函数 ， 
则 有 希望 抑制 梯度 消失 的 问题 ( 当 ReLU 的 输入 为 x 时 ， 它 的 输出 是 
max(0,z))。 这 是 因为 ， 在 ReLU 的 情况 下 ， 当 z 大 于 0 时 ， 反 向 
传播 将 上 游 的 梯度 原样 传递 到 下 游 ， 梯 度 不 会 “退化 ”。 实 际 上 ， 题 
为 “Improving performance of recurrent neural network with 


relu nonlinearity” 的 论文 中 就 使 用 ReLU 实现 了 性 能 改善 。 






















































































接 下 来 ， 我 们 关注 图 6-5 中 的 MatMul (EER) 节点 。 简 单 起 见 ， 
这 里 我 们 忽略 图 6-5 中 的 tanh 节点 。 如 此 一 来 ， 如 图 6-7 所 示 ，RNN 层 的 
反 向 传播 的 梯度 就 仅 取 决 于 MatMul 运算 。 
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MatMul L. 2 2 2 2- — mata Me MatMul | 


dh W,...W,- — dhWi — dh 











6-7 _ 仅 关注 RNN 层 的 矩阵 乘积 时 的 反 向 传播 的 梯度 


在 图 6-7 中 ， 假 定 从 上 游 传 来 梯度 dh， 此 时 MatMul 节点 的 反 向 传播 
通过 和 矩阵 乘积 dh WT 计算 梯度 。 之 后 ， 根 据 时 序数 据 的 时 间 步 长 ， 将 这 个 
计算 重复 相应 次 数 。 这 里 需要 注意 的 是 ， 每 一 次 矩阵 乘积 计算 都 使 用 相同 的 
权重 Wn. 

那么 ， 反 向 传播 时 梯度 的 值 通过 MatMul 节点 时 会 如 何 变化 呢 ? 一旦 
有 了 疑问 ， 最 好 的 方法 就 是 做 实验 ! 让 我 们 通过 下 面 的 代码 ， 来 观察 梯度 大 
小 的 变化 (= chg6/rnn_gradient graph.py )。 





























import numpy as np 
import matplotlib.pyplot as plt 


N = 2 # mini-batch 的 大 小 
H = 3 # 隐藏 状态 向 量 的 维 数 
T = 20 4 时 序数 据 的 长 度 


dh = np.ones((N, H)) 
np.random.seed(3) # 为 了 复 现 ， 固 定 随机 数 种 子 
Wh = np.random.randn(H, H) 


norm list - [] 

for t in range(T): 
dh = np.dot(dh, Wh.T) 
norm = np.sqrt(np.sum(dh**2)) / N 
norm list.append(norm) 





这 里 用 np. ones O 初始 化 dh ( np. ones) 是 所 有 元 素 均 为 1 的 矩阵 )。 然 
后 ， 根 据 反 向 传播 的 MatMul 节点 的 数量 更 新 dh 相应 次 数 ， 并 将 各 步 的 dh 
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的 大 小 ( 范 数 ) 添加 到 norm tist 中。 这 里 ，dh 的 大 小 是 mini-batch (NÆ ) 
中 的 平均 “L2 范 数 "。L2 范 数 对 所 有 元 素 的 平方 和 求 平方 根 。 

下 面 ， 我 们 将 上 述 代码 的 执行 结果 (norm tist) 面 在 图 上 ， 如 图 6-8 
所 示 。 
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6-8 ”梯度 dh 的 大 小 随时 间 步 长 呈 指 数 级 增加 


如 图 6-8 所 示 ， 可 知 梯度 的 大 小 随时 间 步 长 呈 指 数 级 增加 ， 这 就 是 梯度 
爆炸 (exploding gradients )。 如 果 发 生 梯 度 爆炸 ， 最 终 就 会 导致 溢出 ， 出 
现 NaN ( Not a Number， 非 数值 ) 之 类 的 值 。 如 此 一 来 ， 神 经 网 络 的 学 习 将 
无 法 正确 运行 。 

现在 做 第 2 个 实验 ,将 wh 的 初始 值 改 为 下 面 的 值 。 























# Wh = np.random.randn(H, H) # before 
Wh = np.random.randn(H, H) * 0.5 # after 























使 用 这 个 初始 值 ， 进 行 与 上 面相 同 的 实验 ， 结 果 如 图 6-9 所 示 。 
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6-9 ”梯度 dh 的 大 小 随时 间 步 长 呈 指 数 级 减 小 


从 图 6-9 中 可 以 看 出 ， 这 次 梯度 呈 指 数 级 减 小 ， 这 就 是 樟 度 消失 
( vanishing gradients )。 如 果 发 生 梯度 消失 ， 梯 度 将 迅速 变 小 。 一 旦 梯度 变 
小 ， 权 重 梯度 不 能 被 更 新 ， 模 型 就 会 无 法 学 习 长 期 的 依赖 关系 。 

在 这 里 进行 的 实验 中 ,梯度 的 大 小 或 者 呈 指 数 级 增加 ， 或 者 呈 指 数 级 减 
小 。 为 什么 会 出 现 这 样 的 指数 级 变化 呢 ? 因为 矩阵 wh 被 反复 乘 了 T 次 。 如 
果 wh 是 标量 ， 则 问题 将 很 简单 : 当 wh 大 于 工时 ， 梯 度 呈 指数 级 增加 ; 当 wh 
小 于 时， 梯度 呈 指数 级 减 小 。 

那么 ， 如 果 wh 不 是 标量 ， 而 是 矩阵 呢 ?” 此 时 ， 算 阵 的 奇异 值 将 成 为 指 
标 。 简 单 而 言 ， 和 矩阵 的 奇异 值 表示 数据 的 离散 程度 。 根 据 这 个 奇异 值 (更 准 
角 地 说 是 多 个 奇异 值 中 的 最 大 值 ) 是 否 大 于 1， 可 以 预测 梯度 大 小 的 变化 。 
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如 果 奇 异 值 的 最 大 值 大 于 1， 则 可 以 预测 梯度 很 有 可 能 会 呈 指 数 
级 增加 ;而 如 果 奇 异 值 的 最 大 值 小 于 1， 则 可 以 判断 梯度 会 呈 指 
数 级 减 小 。 但 是 ， 并 不 是 说 奇异 值 比 1 大 就 一 定 会 出 现 梯度 爆炸 。 
也 就 是 说 ， 这 是 必要 条 件 ， 并 非 充分 条 件 。 文 献 [30] 中 详细 探 
讨 了 RNN 的 梯度 消失 和 梯度 爆炸 问题 ， 感 兴趣 的 读者 可 以 参考 
全 下 













































































































































































6.1.4 ”梯度 爆炸 的 对 策 


至 此 ， 我 们 探讨 了 RNN 的 梯度 爆炸 和 梯度 消失 问题 ， 现 在 我 们 继续 讨 
论 解 决 方案 。 首 先 来 看 一 下 梯度 爆炸 。 

解决 梯度 爆炸 有 既定 的 方法 ， 称 为 梯度 裁 前 〈gradients clipping )。 这 
是 一 个 非常 简单 的 方法 ， 它 的 伪 代 码 如 下 所 示 : 


if |lg|| 2 threshold: 


M threshold 、 
g— —z—9 
Ill 


这 里 假设 可 以 将 神经 网 络 用 到 的 所 有 参数 的 梯度 整合 成 一 个 ， 并 用 符号 9 表 
示 。 另 外 ， 将 浆 值 设置 为 如 reshnold。 此 时 ， 如 果 梯 度 的 工 2 范 数 19 大 于 或 
等 于 阔 值 ， 就 按 上 述 方法 修正 梯度 ， 这 就 是 梯度 裁 甬 。 如 你 所 见 ， 虽 然 这 个 
方法 很 简单 ， 但 是 在 许多 情况 下 效果 都 不 错 。 























9 整合 了 神经 网 络 中 用 到 的 所 有 参数 的 梯度 。 比 如 ， 当 某 个 模型 
有 WwW1 和 WwW 两 个 参数 时 ，9 就 是 这 两 个 参数 对 应 的 梯度 dw1 和 dw2 
的 组 合 。 


























现在 ， 我 们 用 Python 来 实现 梯度 裁剪， 将 其 实现 为 cLip_grads(grads， 
max norm) 函数 。 人 参数 grads 是 梯度 的 列表 ，max_norm 是 阔 值 ， 此 时 梯度 裁剪 
可 以 如 下 实现 ( cho6/clip grads.py )。 
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import numpy as np 


dwl = np.random.rand(3, 3) * 10 
dw2 = np.random.rand(3, 3) * 10 
grads = [dwl, dW2] 

max norm = 5.0 


def clip grads(grads, max norm): 
total norm - 0 
for grad in grads: 
total norm «- np.sum(grad ** 2) 
total norm - np.sqrt(total norm) 


rate = max norm / (total norm + le-6) 
if rate « 1: 
for grad in grads: 
grad *- rate 


clip grads(grads, max norm) 




















这 就 是 梯度 裁剪 的 实现 ， 并 没有 什么 特别 难 的 地 方 。 因 为 将 来 还 会 用 到 
clip grads(grads, max norm), ， 所 以 我 们 在 common/util.py 中 也 放 了 一 份 相 
同 的 代码 。 














本 书 提 供 了 用 于 RNNLM 学 习 的 RnntmTrainer 类 ( comnon/trainer. 
py)， 它 的 内 部 利用 了 上 述 梯度 裁剪 以 防止 梯度 爆炸 。 我 们 会 在 6.4 
入 再 次 说 明 RnnlmTrainer 类 中 的 梯度 裁剪 。 
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以 上 就 是 对 梯度 裁剪 的 说 明 。 下 面 ， 我 们 看 一 下 防止 梯度 消失 的 对 策 。 


6.2 ”梯度 消失 和 LSTM 


在 RNN 的 学 习 中 ,梯度 消失 也 是 一 个 大 问题 。 为 了 解决 这 个 问题 ， 需 
要 从 根本 上 改变 RNN 层 的 结构 ， 这 里 本 章 的 主题 Gated RNN re F 
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人 们 已 经 提出 了 诸多 Gated RNN 框架 ( 网 络 结构 )， 其 中 具有 代表 性 的 有 
LSTM 和 GRU。 本 节 我 们 将 关注 LSTM， 和 仔细 研究 它 的 结构 ， 并 阐明 为 何 
它 不 会 (难以 ) 引起 梯度 消失 。 另 外 ， 附 录 C 中 会 对 GRU 进行 说 明 。 











6.2.1 LSTM 的 接口 

接 下 来 ,我们 仔细 看 一 下 LSTM 层 。 在 此 之 前 ， 为 了 将 来 方便 ， 我 们 
在 计算 图 中 引入 “简略 图 示 法 ”。 如 图 6-10 所 示 ， 这 种 图 示 法 将 矩阵 计算 等 
整理 为 一 个 长 方形 节点 。 




















A hi 
—| tanh - -————— 














图 6-10 ”应 用 了 简略 图 示 法 的 RNN 层 : 本 节 使 用 简略 图 示 法 以 方便 观察 





如 图 6-10 所 示 ， 这 里 将 tanh(ha a Wn + 2Wz + b) 这 个 计算 表示 为 
一 个 长 方形 节点 tanh ( hia 和 zz 是 行 向 量 )， 这 个 长 方形 节点 中 包含 了 算 
阵 乘 积 、 偏 置 的 和 以 及 基于 tanh 函数 的 变换 。 

现在 我 们 已 经 做 好 了 准备 。 首 先 ， 我 们 来 比较 一 下 LSTM 与 RNN 的 
接口 (输入 和 输出 ) (图 6-11 )。 
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6-11 RNN 层 与 LSTM 层 的 比较 


如 图 6-11 所 示 ，LSTM 与 RNN 的 接口 的 不 同 之 处 在 于 ，LSTM 还 有 
路 径 c。 这 个 ec 称 为 记忆 单元 (或 者 简称 为 “单元 " )， 相 当 于 LSTM 专用 
的 记忆 部 门 。 

记忆 单元 的 特点 是 ， 仅 在 LSTM 层 内 部 接收 和 传递 数据 。 也 就 是 说 ， 
记忆 单元 在 LSTM 层 内 部 结束 工作 ， 不 向 其 他 层 输 出 。 而 LSTM 的 隐藏 状 
态 h 和 RNN 层 相 同 , 会 被 (向 上 ) 输出 到 其 他 层 。 


从 接收 LSTM 的 输出 的 一 侧 来 看 ， LSTM 的 输出 仅 有 隐藏 状态 向 量 h。 
记忆 单元 c 对 外 部 不 可 见 ， 我 们 甚至 不 用 考虑 它 的 存在 。 










































































62.22 LSTM 层 的 结构 

现在 ， 我 们 来 看 一 下 LSTM 层 的 内 部 结构 。 这 里 ， 我 想 一 个 一 个 地 组 
装 LSTM 的 部 件 ， 并 仔细 研究 它们 的 结构 。 以 下 内 容 参考 了 “colah's blog: 
Understanding LSTM Networks" BH 这 篇 优秀 的 文章 。 

如 前 所 述 ，LSTM 有 记忆 单元 ct。 这 个 ci 存储 了 时 刻 t 时 LSTM 的 记 
忆 ， 可 以 认为 其 中 保存 了 从 过 去 到 时 刻 t 的 所 有 必要 信息 (或 者 以 此 为 目的 
进行 了 学 习 )。 然 后 ， 基 于 这 个 充满 必要 信息 的 记忆 ， 向 外 部 的 层 ( 和 下 一 
时 刻 的 LSTM ) 输出 隐藏 状态 heo WRI 6-12 所 示 ，LSTM 输出 经 tanh PR 
数 变 换 后 的 记忆 单元 。 
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6-12 LSTM 层 基于 记忆 单元 ct 计算 隐藏 状态 he 


如 图 6-12 所 示 ， 当 前 的 记忆 单元 ci 是 基于 3 个 输入 cci. hia 和 zt， 
经 过 “ 某 种 计算 ”( 后 述 ) 算出 来 的 。 这 里 的 重点 是 隐藏 状 态 hi 要 使 用 更 新 
后 的 ci 来 计算 。 另 外 ， 这 个 计算 是 ht = tanh(ct)， 表 示 对 ct 的 各 个 元 素 应 
用 tanh KX 














到 目前 为 止 ， 记 忆 单 元 cz 和 隐藏 状态 心 的 关系 只 是 按 元 素 应 用 
tanh 国 数 。 这 意味 着 , 记忆 单元 ct 和 隐藏 状态 hz 的 元 素 个 数 相同 。 
如 果 记 忆 单 元 ci 的 元 素 个 数 是 100， 则 隐藏 状态 hi 的 元 素 个 数 也 
是 100。 















































在 进入 下 一 项 之 前 ， 我 们 先 简单 说 明 一 下 Gate 的 功能 。Gate 是 “ 门 ” 
的 意思 ， 就 像 将 门 打开 或 合 上 一 样 ， 控 制 数据 的 流动 。 直 观 上 ， 如 网 6-13 
所 示 ， 门 的 作用 就 是 阻止 或 者 释放 水 流 。 
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图 6-13 门 的 比喻 : 控制 水 流 


LSTM 中 使 用 的 门 并 非 只 能 “ 开 或 合 " ， 还 可 以 根据 将 门 打开 多 少 来 控 
制 水 的 流量 。 如 图 6-14 所 示 ， 可 以 将 “ 开 合 程度 ”控制 在 0.7 (7096) 或 者 
0.2 ( 2096 )。 


mi m 


7 (70%) |. 02(206) — 




















图 6-14 将 水 的 流量 控制 在 0.0 ~ 1.0 的 范围 内 

如 图 6-14 所 示 ， 门 的 开 合 程度 由 0.0 ~1.0 的 实数 表示 (1.0 为 全 开 )， 
通过 这 个 数值 控制 流出 的 水 量 。 这 里 的 重点 是 ， 门 的 开 合 程度 也 是 ( 自动 ) 
从 数据 中 学 习 到 的 。 

















有 专门 的 权重 参数 用 于 控制 门 的 开 合 程度 ， 这 些 权重 参数 通过 学 习 
被 更 新 。 另 外 ，sigmoid 函数 用 于 求 门 的 开 合 程度 (sigmoid 函数 的 
输出 范围 在 0.0 ~ 1.0)。 
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62.3 íi] 


现在 ， 我 们 将 话题 转 回 到 LSTM。 在 刚才 的 说 明 中 ， 隐 藏 状态 hi 对 记 
忆 单 元 ci 仅仅 应 用 了 tanh 函数 。 这 里 考虑 对 tanh(ei) 施加 门 。 换 名 话说， 
针对 tanh(ec) 的 各 个 元 素 ， 调 整 它们 作为 下 一 时 刻 的 隐藏 状态 的 重要 程 
度 。 由 于 这 个 门 管理 下 一 个 隐藏 状态 he 的 输出 ， 所 以 称 为 输出 门 (output 
gate )。 

输出 门 的 开 合 程度 (流出 比例 ) 根据 输入 zt 和 上 一 个 状态 hi-1 求 
出 。 此 时 进行 的 计算 如 式 〈6.1 ) 所 示 。 这 里 在 使 用 的 权重 参数 和 偏 置 的 上 
标 上 添加 了 output 的 首 字母 o。 之 后 ， 我 们 也 将 使 用 上 标 表示 门 。 另 外 ， 
sigmoid 函数 用 o() 表示 。 









































o = o(ziW + hi LAW( +b) (6.1) 


如 式 (6.1) 所 示 ， 输 入 zt 有 权重 Wzto)， 上 一 时 刻 的 状态 hi_1 有 权 
E Wa (zt 和 he-1 是 行 向 量 )。 将 它们 的 矩阵 乘积 和 偏 置 bO 之 和 传 给 
sigmoid 函数 ， 结 果 就 是 输出 门 的 输出 o。 最 后 ， 将 这 个 o 和 tanh(cz) 的 
对 应 元 素 的 乘积 作为 hi 输出。 将 这 些 计算 绘制 成 计算 图 ， 结果 如 图 6-15 
所 示 。 
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6-15 ”添加 输出 门 














在 图 6-15 中 ， 将 输出 门 进行 的 式 (6.1) 的 计算 表示 为 ao。 然后 ， 将 它 的 
输出 表示 为 o， 则 hi 可 由 o 和 tanh(ez) 的 乘积 计算 出 来 。 这 里 说 的 “乘积 ” 





是 对 应 元 素 的 乘积 ， 
处 的 计算 如 下 所 示 : 


也 称 为 阿达 玛 乘积 。 如 细 

















ht = o © tanh(ce:) 


RH © 表示 阿达 玛 乘积 ， 则 此 


(6.2) 


以 上 就 是 LSTM 的 输出 门 。 这 样 一 来 ，LSTM 的 输出 部 分 就 完成 了 ， 





接着 我 们 再 来 看 一 下 记忆 单元 的 更 新 部 分 。 


tanh 的 输出 是 -1.0 ~ 1.0 的 实数 。 我 



































数值 表示 某 种 被 编码 的 “信息 ”的 强 弱 (程度 )。 而 sigmoid 函数 的 
输出 是 0.0~1.0 的 实数 ， 表 示 数 据 流 ! Ate, AZZ 





























况 下 ， 门 使 用 


























则 使 | 








sigmoid 函数 作为 激 沁 
J tanh 函数 作为 激活 函数 。 


的 比例 。 





门 可 以 认为 这 个 一 1.0 ~ 1.0 的 












































5 函数， 而 包含 实质 信息 的 数据 
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6.2.4 ”遗忘 门 


只 有 放下 包 容 ， 才 能 轻装 上 路 。 接 下 来 ,我们 要 做 的 就 是 明确 告诉 记忆 







































































单元 需要 “忘记 什么 ”。 这 里 ， 我 们 使 用 门 来 实现 这 一 目标 。 
现在 ， 我 们 在 记忆 单元 ceca 上 添加 一 个 忘记 不 必要 记忆 的 门 ， 这 里 称 
为 遗忘 门 〈forget gate )。 将 遗忘 门 添加 到 LSTM 层 ， 计 算 图 如 图 6-16 所 示 。 
h 
Cł—1 e Ct 
i 
tanh 
f "e 
f > X 
CT [0 
hia i] j} o |) ha 
| 
Tt 
图 6-16 ”添加 遗忘 门 
在 图 6-16 中 ， 将 遗忘 门 进行 的 一 系列 计算 表示 为 cx， 其 中 有 遗忘 门 专 
用 的 权重 参数 ， 此 时 的 计算 如 下 : 
f = o (W + hi WO + p) (6.3) 


遗忘 门 的 输出 了 可 以 由 式 (6.3) 求 得 。 然 后 ，ci 由 这 个 了 和 上 一 个 记忆 
单元 ct-1 的 对 应 元 素 的 乘积 求 得 ( ct = fO cia). 


6.2 ”梯度 消失 和 LSTM | 237 





6.2.5 新 的 记忆 单元 

遗忘 门 从 上 一 时 刻 的 记忆 单元 中 删除 了 应 该 忘记 的 东西 ， 但 是 这 样 一 
来 ， 记 忆 单 元 只 会 忘记 信息 。 现 在 我 们 还 想 向 这 个 记忆 单元 添加 一 些 应 当 记 
住 的 新 信息 ， 为 此 我 们 添加 新 的 tanh 节点 (图 6-17 )。 
























































h; 
Ct-—1 Ct 
» X e 4 : » 
x Y 
| | tanh 
f g o 3 
EN * 
o tanh | O 
hia B Ki jM hi 
7 ; 
Tt 











图 6-17 向 新 的 记忆 单元 添加 必要 信息 





如 图 6-17 所 示 ， 基 于 tanh 节点 计算 出 的 结果 被 加 到 上 一 时 刻 的 记忆 单 
元 ct-1 上 。 这 样 一 来 ， 新 的 信息 就 被 添加 到 了 记忆 单元 中 。 这 个 tanh 节点 
的 作用 不 是 门 ， 而 是 将 新 的 信息 添加 到 记忆 单元 中 。 因 此 ， 它 不 用 sigmoid 
函数 作为 激活 函数 ， 而 是 使 用 tanh 函数 。tanh 节点 进行 的 计算 如 下 所 示 : 























g = tanh(ziW9 十 hi 1 W(2 十 bs)) (6.4) 


这 里 用 g 表示 向 记忆 单元 添加 的 新 信息 。 通 过 将 这 个 g 加 到 上 一 时 刻 的 ce- 
上 ， 从 而 形成 新 的 记忆 。 
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62.6 ”输入 门 
最 后 ， 我 们 给 图 








6-17 的 g 添 加 门 ， 这 里 将 这 个 新 添加 的 门 称 为 输入 门 
























































(input gate )。 添 加 输入 门 后 ， 计 算 图 如 图 6-18 所 示 。 
h, 
Ct 1 Ct 
>i x > + ) > 
1 di. 
Í x HN i 
g! 2 (X) 
O tanh | [0) g | 
^o O o D 
i 
X 
图 6-18 添加 输入 门 





输入 门 判断 新 增 信息 g 的 各 个 元 素 的 价值 有 多 大 。 输 入 门 不 会 不 经 考虑 
就 添加 新 信息 ， 而 是 会 对 要 添加 的 信息 进行 取舍 。 换 句 话 说， 输入 门 会 添加 





加 权 后 的 新 信息 。 
在 图 6-18 中 ， 
所 示 




















i — o(z WE + hi W +b) 





用 o 表 示 输 入 门 ， 用 i 表示 输出 ， 此 时 进行 的 计算 如 下 


(6.5) 


然后 ， 将 i 和 g 的 对 应 元 素 的 乘积 添加 到 记忆 单元 中 。 以 上 就 是 对 


LSTM 内 部 处 理 的 说 明 。 
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LSTM 有 多 个 “ 变 体 ”。 这 里 说 明 的 LSTM 是 最 有 代表 性 的 
LSTM， 也 有 许多 在 门 的 连接 方式 上 稍微 不 同 的 其 他 LSTM 。 


6.2.7 LSTM 的 梯度 的 流 z 


上 面 我 们 介绍 了 LSTM 的 结构 ， 那 么 ， 为 什么 它 不 会 引起 梯度 消失 呢 ? 
其 原因 可 以 通过 观察 记忆 单元 c 的 反 向 传播 来 了 解 〈 图 6-19 )。 


















































6-19 记忆 单元 的 反 向 传播 








在 图 6-19 中 ,我 们 仅 关 注 记 忆 单 元 ， 绘 制 了 它 的 反 向 传播 。 此 时 ， 记 
忆 单 元 的 反 向 传播 仅 流 过 “二 ”和 “x” 节 点 。“ 十 ”节点 将 上 游 传 来 的 梯度 
原样 流出 ， 所 以 梯度 没有 变化 ( 退化 )。 

而 “x” 节 点 的 计算 并 不 是 矩阵 乘积 ， 而 是 对 应 元 素 的 乘积 ( 阿达 玛 
E) 顺便 说 一 下 ， 在 之 前 的 RNN 的 反 向 传播 中 ， 我 们 使 用 相同 的 权重 矩 
阵 重复 了 多 次 矩阵 乘积 计算 ,由 此 导致 了 梯度 消失 (或 梯度 爆炸 )。 而 这 里 
的 LSTM 的 反 向 传播 进行 的 不 是 矩阵 乘积 计算 ， 而 是 对 应 元 素 的 乘积 计算 ， 
而 且 每 次 都 会 基于 不 同 的 门 值 进行 对 应 元 素 的 乘积 计算 。 这 就 是 它 不 会 发 生 
梯度 消失 (或 梯度 爆炸 ) 的 原因 。 

图 6-19 的 “x” 节 点 的 计算 由 遗忘 门 控制 ( 每 次 输出 不 同 的 门 值 )。 遗 忘 
门 认为 “应 该 忘记 ”的 记忆 单元 的 元 素 ， 其 梯度 会 变 小 ; 而 遗忘 门 认为 “不 能 
忘记 ”的 元 素 ， 其 梯度 在 向 过 去 的 方向 流动 时 不 会 退化 。 因 此 ， 可 以 期 待 记忆 
单元 的 梯度 ( 应 该 长 期 记 住 的 信息 ) 能 在 不 发 生 梯度 消失 的 情况 下 传播 。 
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从 以 上 讨论 可 知 ，LSTM 的 记忆 单元 不 会 (难以 ) 发 生 梯 度 消 失 。 因 此 ， 
可 以 期 待 记忆 单元 能 够 保存 (学习 ) 长 期 的 依赖 关系 。 





























LSTM 是 Long Short-Term Memory( 长 短期 记忆 ) 的 缩写 ， 意 思 是 
可 以 长 (Long ) 时 间 维 持 短期 记忆 (Short-Term Memory )。 
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下 面 ， 我 们 来 实现 LSTM。 这 里 将 进行 单 步 处 理 的 类 实现 为 LSTM 类 ， 


将 整体 处 到 





ET 步 的 类 实现 为 TimeLSTM 类 。 现 在 我 们 先 来 整 开 





进行 的 计算 ， 如 下 所 示 : 


f =o(zw Wl +h WP 二 DG) 

g = tanh(z, WÁ9 + h, 4 W(9 +b) 

i = c(z WO + a WO +b) 

o = c(ziWÍ9? + hi 4 W +b) 
c—foccitgoi 


ht = o © tanh (ct) 


E— F LSTM 中 


(6.6) 


(6.7) 


(6.8) 


以 上 就 是 LSTM 进行 的 计算 。 这 里 需要 注意 式 (6.6) 中 的 4 个 仿 射 变换 。 
这 里 的 仿 射 变 换 是 指 zWz + hWn + b 这 样 的 式 子 。 式 (6.6) 中 通过 4 个 式 
子 分 别 进行 仿 射 变换 ， 但 其 实 可 以 整合 为 通过 1 个 式 子 进行 ， 如 图 6-20 所 示 。 
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6-20 整合 4 个 权重 ， 通 过 1 次 仿 射 变换 进行 4 个 计算 





在 图 6-20 中 ,4 个 权重 (或 偏 置 ) 被 整合 为 了 1 个 。 如 此 ， 原 本 单独 
执行 4 次 的 仿 射 变换 通过 1 次 计算 即 可 完成 ， 可 以 加 快 计算 速度 。 这 是 因为 
和 矩阵 库 计 算 “ 大 和 矩阵 ”时 通常 会 更 快 ， 而 且 通 过 将 权重 整合 到 一 起 管理 ， 源 
代码 也 会 更 简洁 。 

假设 Wa. Wn 和 65 分别 包含 4 个 权重 (或 偏 置 )， 此 时 LSTM 的 计算 
图 如 图 6-21 所 示 。 
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6-21 整合 4 个 权重 进行 仿 射 变换 的 LSTM 的 计算 图 


如 图 6-21 所 示 ， 先 一 起 执行 4 个 仿 射 变换 。 然 后 ， 基 于 slice 节点 ， 取 
出 4 个 结果 。 这 个 slice 节点 很 简单 ， 它 将 仿 射 变换 的 结果 (矩阵 ) 均等 地 
分 成 4 份 ， 然 后 取出 内 容 。 在 slic 节点 之 后 ， 数 据 流 过 激活 函数 (sigmoid 
函数 或 tanh 函数 )， 进 行 上 一 节 介 绍 的 计算 。 

现在 ， 参 考 图 6-21， 我 们 来 实现 LSTM 类 。 首 先 来 看 一 下 LSTM 类 的 初始 
化 代码 (= common/time layers.py )。 


class LSTM: 
def | init (self, Wx, Wh, b): 
self.params = [Wx, Wh, b] 
self.grads = [np.zeros like(Wx), np.zeros like(Wh), 
—  np.zeros like(b)] 
self.cache - None 





初始 化 的 参数 有 权重 参数 WX, wh 和 偏 置 bp。 如 前 所 述 ， 这 些 权 重 (或 仿 
T) 整合 了 4 个 权重 。 把 这 些 参 数 获得 的 权重 参数 设 定 给 成 员 变量 params, 
并 初始 化 形状 与 之 对 应 的 梯度 。 男 外 ,成员 变量 cache 保存 正 向 传播 的 中 间 
结果 ， 它 们 将 在 反 向 传播 的 计算 中 使 用 。 

接 下 来 实现 正 向 传播 的 forward(x，h_prev，c_prev) 方法 。 它 的 参数 接 
收 当前 时 刻 的 输入 x、 上 一 时 刻 的 隐藏 状态 hn_prev， 以 及 上 一 时 刻 的 记忆 单 
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元 € prev (= common/time layers.py )。 


def forward(self, x, h prev, c prev): 
Wx, Wh, b = self.params 
N, H = h prev.shape 


A = np.dot(x, Wx) + np.dot(h prev, Wh) + b 


# slice 

fT - A[:, :H] 

g = A[:, H:2*H] 

i = A[:, 2*H:3*H] 
ös A[:, 3*H:] 


Q He Q = 
M 
2 
o è 
Pe 
w 
E 
zx 


c next = f * c prev +g*i 


Lu 
o 
* 


h next np.tanh(c next) 


self.cache = (x, h prev, c prev, i, f, g, o, c next) 
return h next, c next 








首先 进行 仿 射 变 换 。 重 复 一 下 ， 此 时 的 成 员 变 量 Wx, Wh fI b 保存 的 是 4 
个 权重 ,矩阵 的 形状 将 变 为 如 图 6-22 所 示 的 样子 。 
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6-22 ， 仿 射 变换 的 形状 的 改变 (省 略 偏 置 ) 


在 图 6-22 中 ， 批 大 小 是 N， 输 入 数据 的 维 数 是 D， 记 忆 单 元 和 隐藏 状态 
的 维 数 都 是 H。 另 外 ， 计 算 结 果 A 中 保存 了 4 个 仿 射 变 换 的 结果 。 因 此 ， 通 
过 A[:，:H]、A[:，H:2*H] 这 样 的 切片 取出 数据 ， 并 分 配给 之 后 的 运算 节点 。 
参考 LSTM 的 数学 式 和 计算 图 ， 剩 余 的 实现 应 该 不 难 


LSTM 层 中 保存 了 4 个 权重 。 这 样 一 来 ， LSTM 层 只 需 管理 Wx、 
EN wh 和 b 这 3 个 参数 。 顺 便 说 一 下 ，RNN 层 中 也 保存 着 Wx、Wh 和 b 
这 3 个 参数 。LSTM 层 和 RNN 层 的 参数 数量 虽然 相同 ， 但 是 它 
们 的 形状 不 一 样 。 
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LSTM 的 反 向 传播 可 以 通过 将 图 6-21 的 计算 图 反方 向 传播 而 求 得 。 基 
于 前 面 介绍 的 知识 ， 这 并 不 困难 。 不 过 ， 因 为 slide 节点 是 第 一 次 见 到 ， 所 
以 我 们 简要 说 明 一 下 它 的 反 向 传播 。 

slice 节点 将 矩阵 分 成 了 4 份 , 因 此 它 的 反 向 传播 需要 整合 4 个 梯度 ， 
如 图 6-23 所 示 。 
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6-23 ”slice 节 点 的 正 向 传播 (上 ) 和 反 向 传播 (下 ) 


由 图 6-23 可 知 ， 在 slice 节点 的 反 向 传播 中 ， 拼 接 4 个 和 矩阵。 图 中 有 4 
个 梯度 df、dg、 旺 和 do， 将 它们 拼接 成 A。 如 果 通 过 NumPy 进行 ， 则 可 
以 使 用 np.hstack()。np.hstack() 在 水 平方 向 上 将 参数 中 给 定 的 数组 拼接 起 
来 (垂直 方向 上 的 拼接 使 用 np.vstackO )。 因 此 ， 上 述 处 理 可 以 用 下 面 1 行 
代码 完成 。 

















dA = np.hstack((df, dg, di, do)) 





以 上 就 是 对 slice 节点 的 反 向 传播 的 说 明 。 


Time LSTM 层 的 实现 


现在 我 们 继续 TimeLSTM 的 实现 。Time LSTM 层 是 整体 处 理 了 个 时 序数 
据 的 屋 ， 由 了 个 LSTM 层 构成 ， 如 图 6-24 所 示 。 
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6-24 Time LSTM 的 输入 和 输出 


如 前 所 述 ，RNN 中 使 用 Truncated BPTT 进行 学 习 。Truncated 
BPTT 以 适当 的 长 度 截断 反 向 传播 的 连接 ， 但 是 需要 维持 正 向 传播 的 数据 
流 。 为 此 ， 如 图 6-25 所 示 ， 将 隐藏 状态 和 记忆 单元 保存 在 成 员 变量 中 。 这 
样 一 来 ， 在 调用 下 一 个 forward() 函数 时 ， 就 可 以 继承 上 一 时 刻 的 隐藏 状态 
(和 记忆 单元 )。 


















































保存 在 TimeLSTM | 
类 的 成 员 变 量 
hs0 类 的 成 员 变 量 中 hs1 
| ne | 
sm [7 adem J] gem 本 rm J f asm J o ce 
| | [ 
zs xsl 











6-25 Time LSTM 的 反 向 传播 的 输入 和 输出 


我 们 已 经 实现 了 Time RNN 层 ， 这 里 也 以 同样 的 方式 实现 Time 
LSTM 层 。TimeLSTM 可 以 像 下 面 这 样 实现 (> common/time layers.py )。 


class TimeLSTM: 
def | init (self, Wx, Wh, b, stateful-False): 
self.params = [Wx, Wh, b] 
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— 


self.grads = [np.zeros like(Wx), np.zeros like(Wh), 


np.zeros like(b)] 


def 


def 


self.layers - None 


self.h, self.c = None, None 
self.dh = None 
self.stateful - stateful 


forward(self, xs): 

Wx, Wh, b = self.params 
N, T, D = xs.shape 

H = Wh.shape[0] 


self.layers - [] 
hs = np.empty((N, T, H), dtypez'f') 


if not self.stateful or self.h is None: 
self.h = np.zeros((N, H), dtypez'f') 
if not self.stateful or self.c is None: 
self.c = np.zeros((N, H), dtypez'f') 


for t in range(T): 
layer = LSTM(*self.params) 


self.h, self.c = layer.forward(xs[:, t, :], self.h, self.c) 


hs[:, t, :] = self.h 
self.layers.append(layer) 
return hs 
backward(self, dhs): 
Wx, Wh, b = self.params 
N, T, H = dhs.shape 


D = Wx.shape[0] 


dxs = np.empty((N, T, D), dtypez'f') 
dh, dc = 0, 0 


grads - [0, 0, 0] 
for t in reversed(range(T)): 
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layer = self.layers[t] 


dx, dh, dc = layer.backward(dhs[:, t, :] + dh, dc) 


dxs[:, t; :] e dx 
for i, grad in enumerate(layer.grads): 
grads[i] += grad 


for i, grad in enumerate(grads): 
self.grads[il[...] = grad 
self.dh = dh 
return dxs 


def set state(self, h, c-None): 
self.h, self.c- hh, c 


def reset state(self): 
self.h, self.c = None, None 








在 LSTM 中 ,除了 ded h 外 ， 还 使 用 记忆 单元 c. 
这 里 仍 通 过 参数 stateful 指定 是 否 维 


现 和 TimeRNN 类 几乎 一 
下 来 ,我 们 使 用 这 个 TimeLSTM 创建 语言 模型 。 
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TimeLSTM 类 的 实 














持 状态 。 接 


Time LSTM 层 的 实现 完成 了 ， 现 在 我 们 来 实现 正题 一 一 语言 模型 。 











这 里 实现 的 语言 模型 和 上 一 章 几 乎 是 一 样 的 ， 唯 一 的 区 别 是 ， 上 一 章 使 用 


























Time RNN 层 的 地 方 这 次 使 用 Time LSTM 层 ， 如 图 6-26 所 示 。 
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Time Embedding 
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ts 








Time Softmax 


with Loss 





Time Affine 


Time LSTM 





Time Embedding 





ws 


ts 








由 图 6-26 可 知 ， 这 里 和 上 一 章 实 现 的 语言 模型 的 差别 在 于 使 月 
LSTM。 我们 将 图 6-26 右 图 中 的 神经 网 络 实现 为 Rnntm 类 。Rnntm 类 和 上 一 
章 介 绍 的 SimpleRnntm 类 几乎 相同 ， 但 是 增加 了 一 些 新 方法 。 下 面 给 出 使 用 
LSTM 层 实现 的 Rnntn 类 的 代码 P, 


import sys 


sys.path.append('..') 


from common.time layers import * 








图 6-26 语言 模型 的 网 络 结构 。 左 图 是 上 一 章 创建 的 使 用 Time RNN 的 模型 ， 右 图 是 本 
章 创建 的 使 用 Time LSTM 的 模型 


HT 





这 里 给 出 的 代码 对 应 于 che6/rnntm.py。chg6/rnntm.py 通 过 继承 BaseModet 类 ， 实 现 更 为 简略 。 





250 | 第 6 章 Gated RNN 








import pickle 


class Rnnlm: 


def 


. init (self, vocab size-10000, wordvec size-100, 


— hidden size-100): 


def 


def 


V, D, H = vocab size, wordvec size, hidden size 
rn = np.random.randn 


# 初始 化 权重 

embed W = (rn(V, D) / 100).astype(' 

lstm Wx = (rn(D, 4 * H) / np.sqrt 

lstm Wh = (rn(H, 4 * H) / np.sqrt 
np. 


Cf) 
(D 
(H 
lstm b = zeros(4 * H).astype('f' 
). 
) 


f 
)).astype('f') 
) 
) 


).astype('f') 


affine W (rn(H, V) / np.sqrt(H) 
affine b = np.zeros(V).astype('f' 


astype('f') 





3 生成 层 
self.layers = [ 
TimeEmbedding(embed W), 
TimeLSTM(lstm Wx, lstm Wh, lstm b, stateful-True), 
TimeAffine(affine W, affine b) 





] 
self.loss layer - TimeSoftmaxWithLoss() 
self.lstm layer = self.layers[1] 


# 将 所 有 的 权重 和 梯度 整理 到 列表 中 

self.params, self.grads = [], [] 

for layer in self.layers: 
self.params += layer.params 
self.grads += layer.grads 


predict(self, xs): 

for layer in self.layers: 
- layer.forward(xs) 

return xs 


forward(self, xs, ts): 

score = self.predict(xs) 

loss = self.loss layer.forward(score, ts) 
return loss 
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def backward(seLf，dout=1) : 
dout = self.loss layer.backward(dout) 
for layer in reversed(self.layers): 
dout = layer.backward(dout) 
return dout 


def reset state(self): 


self.lstm layer.reset state() 


def save params(self, file name-'Rnnlm.pkl'): 
with open(file name, 'wb') as f: 
pickle.dump(self.params, f) 


def load params(self, file namez'Rnnlm.pkl'): 
with open(file name, 'rb') as f: 
self.params = pickle.load(f) 


Rnntn 类 将 到 Softmax 层 为 止 的 处 理 实现 为 predict() 方法 ， 这 个 方法 
在 第 7 章 进 行文 本 生成 时 还 会 用 到 。 此 外 ， 该 类 还 添加 了 用 于 读 写 参数 的 
save params() 和 load params() 方法 。 剩 下 的 实现 与 上 一 章 的 SimpleRnnlm 类 
相同 。 








common/base model.py FH Éj — ^ BaseModel 类, 该 类 实现 了 save. 
params() 和 load params() 方 法 。 因 此 ， 通 过 继承 BaseModel 类 , 也 
能 获得 数据 读 写 的 功能 。 另 外 ，BaseModel 类 的 实现 还 进行 了 优化 ， 
以 支持 GPU 和 进行 缩 位 (使 用 16 位 浮 点 数 存 储 )。 



























































由 














下 面 ， 我 们 在 PTB 数据 集 上 学 习 这 个 网 络 。 这 次 我 们 使 用 PTB 数据 
集 的 所 有 训练 数据 进行 学 习 (上 一 章 中 只 使 用 了 PTB 数据 集 的 一 部 分 )， 代 
人 码 如 下 所 示 (e ch06/train rnnlm.py )。 














import sys 

sys.path.append('..') 

from common.optimizer import SGD 

from common.trainer import RnnlmTrainer 
from common.util import eval perplexity 
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from dataset import ptb 
from rnnlm import Rnnlm 


# 设 定 超 参数 

batch size = 20 

wordvec size - 100 

hidden size = 100 # RNN 的 隐藏 状态 向 量 的 元 素 个 数 
time size = 35 4 RNN 的 展开 大 小 

lr = 20.0 


max epoch = 4 





max grad - 0.25 


# 读 人 训练 数据 

corpus, word to id, id to word = ptb.load data('train') 
corpus test, , _ = ptb.load data('test') 

vocab size - len(word to id) 

xs = corpus[:-1] 


ts corpus[1:] 


3 生成 模型 
model = Rnnlm(vocab size, wordvec size, hidden size) 





optimizer = SGD(lr) 
trainer - RnnlmTrainer(model, optimizer) 











# 加 应 用 梯度 裁剪 进行 学 习 
trainer.fit(xs, ts, max epoch, batch size, time size, max grad, 








eval interval-20) 
trainer.plot(ylim-(0, 500)) 


# 四 基于 测试 数据 进行 评价 

model.reset state() 

ppl test - eval perplexity(model, corpus test) 
print('test perplexity: ', ppl test) 


# 四 保存 参数 


model.save params() 


这 里 给 出 的 代码 和 上 一 章 的 代码 〈s che5/train.py ) 有 很 多 相同 的 地 方 ， 





因此 这 里 重点 介绍 不 同 的 地 方 。 首 先 ， 代 码 @ 处 使 用 RnntmTrainer 类 进行 模 
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型 的 学 习 。RnntmTrainer 类 的 fit() 方法 求 模型 的 梯度 ， 更 新 模型 的 参数 。 
另外 ,在 方法 内 部 ， 通 过 指定 max grad 参数 ， 从 而 应 用 梯度 裁剪 。 顺 便 说 一 
下 ，fit() 方法 内 部 进行 的 实现 如 下 所 示 ( 这 里 给 出 的 是 伪 代 码 )。 











# 求 梯度 
model.forward(...) 
model.backward(...) 
params, grads - model.params, model.grads 
3 梯度 裁 前 
if max grad is not None: 
clip grads(grads, max grad) 
更 新 参数 
optimizer.update(params, grads) 





我 们 在 6.1.4 节 将 梯度 裁剪 实现 为 了 clip grads(grads, max grad), iX 
里 使 用 该 方法 进行 梯度 裁剪 。 

另外 ， 通 过 @ 处 的 fit() 方法 的 参数 evalL_ intervat-20, f$ 20 次 迭代 对 
困惑 度 进行 1 次 评价 。 因 为 这 次 的 数据 量 很 大 ， 所 以 没有 对 每 个 epoch 进行 
评价 ， 而 是 每 20 次 迭代 评价 1 次。 后面 我 们 会 将 评价 结果 用 plot() 方法 绘 
制 成 图 。 

在 学 习 结 束 后， 在 代码 @ 处 使 用 测试 数据 对 困惑 度 进行 评价 。 这 里 需要 
注意 的 是 ， 此 时 需要 先 重 置 模型 的 状态 (LSTM 的 隐藏 状态 和 记忆 单元 )。 
此 外 ， 因 为 评价 困惑 度 的 函数 eval perplexity() 在 common/util.py 中 已 经 实 
现 ， 所 以 直接 使 用 即 可 。 

最 后 ， 在 代码 加 处 将 学 习 好 的 参数 保存 到 外 部 文件 。 在 下 一 章 生成 句子 
时 ， 将 会 使 用 这 些 学 习 好 的 权重 参数 。 

以 上 就 是 RNNLM 的 学 习 代 码 。 执 行 代 码 后 ， 在 终端 上 会 输出 图 6-27 
的 结果 。 
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$python t 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 
epoch 1 





iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 


rain rnnlm.py 

1 / 1327 | time 0[s] | perplexity 10000. 
21 / 1327 | time 4[s] | perplexity 3065. 
41 / 1327 | time 9[s] | perplexity 1255. 
61 / 1327 | time 14[s] | perplexity 956. 
81 / 1327 | time 18[s] | perplexity 806. 


1327 
1327 
1327 
1327 
1327 


time 23[s] 
time 27[s] 
time 31[s] 
time 35[s] 
time 46[s] 


| | perplexity 
| | perplexity 
| | perplexity 
| | perplexity 
| | perplexity 
1327 | time 44[s] | perplexity 
1327 | time 48[s] | perplexity 
1327 | time 53[s] | perplexity 
1327 | time 57[s] | perplexity 
1327 | time 61[s] | perplexity 
1327 | time 66[s] | perplexity 
1327 | time 70[s] | perplexity 
1327 | time 74[s] | perplexity 
1327 | time 79[s] | perplexity 
1327 | time 83[s] | perplexity 





CCCMCMCMC MVC MC MC MC MC MG MG MG MG 








6-27 ”终端 的 输出 结果 





在 图 6-27 中 ， 


每 20 次 迭代 输出 1 次 困惑 度 


刚 开始 的 困惑 度 为 10 000.84， 这 意味 着 下 一 个 单词 的 候选 
文 次 数据 集 的 词汇 量 是 10 000 个 ， 所 以 这 是 什么 也 没 
学 习 的 状态 ， 相 当 于 猜测 。 但 是 随 着 学 习 的 进行 ， 困 惑 度 天 


10 000 个 左右 。 








因为 这 





( 


度 的 值 。 我 们 来 看 一 下 结果 ， 














， 当 迭代 超过 300 次 时 ， 困 惑 度 











—] 如 图 6-28 所 示 。 




















个 数 能 减少 到 


F 始 变 好 。 实 际 


已 经 降 到 了 400 以 下 。 现 在 ， 我 们 看 一 下 
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6-28 ”困惑 度 的 演变 (每 20 次 迭代 对 训练 数据 进行 1 次 评价 ) 


在 这 次 的 实验 中 ， 





1327 * 4 次 )。 如 图 











一 共 进 行 了 4 个 epoch 的 学 习 ( 按 迭代 来 算 ， 相 当 于 
6-28 所 示 ， 困 惑 度 顺利 下 降 ， 


最 终 达 到 100 左右 。 基 于 


最 终 的 测试 数据 的 评价 ( 源 代码 @ 人 处 ) 结果 为 136.07.. .。 该 结果 在 每 次 执 
行 时 都 不 相同 ， 但 是 都 在 135 前 后 。 换 句 话 说 ， 我 们 的 模型 成 长 到 了 能 将 下 
一 个 单词 的 候选 个 数 (从 10 000 个 ) 缩小 到 136 个 左右 的 水 平 。 

那么 ，136 这 样 的 困惑 度 在 实践 中 是 什么 水 平 呢 ? 说 实话 ， 这 并 不 是 一 
个 很 好 的 结果 。 在 2017 年 的 一 个 研究 中 ，PTB 数据 集 上 的 困惑 度 已 经 降 到 
T 60 以 下 B89。 我 们 的 模型 还 有 很 大 的 改进 空间 ， 下 面 我 们 就 来 进一步 改进 




















现 有 的 RNNLM。 


6.5 ”进一步 改进 RNNLM 





本 市 我 们 先 针对 当前 的 RNNLM 说 明 3 点 需要 改进 的 地 方 ， 然 后 实施 
这 些 改进 ， 并 评价 最 后 精度 提高 了 多 少 。 
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6.51 LSTM 层 的 多 层 化 


在 使 用 RNNLM 创建 高 精度 模型 时 ， 加 深 LSTM 层 (AMA LSTM 
E) 的 方法 往往 很 有 效 。 之 前 我 们 只 用 了 一 个 LSTM 层 ， 通 过 闭 加 多 个 
层 ， 可 以 提高 语言 模型 的 精度 。 例 如 ， 在 图 6-29 中 ，RNNLM 使 用 了 两 个 
LSTM 层 。 
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6-29 ”使 用 两 个 LSTM 层 的 RNNLM 


图 6-29 显示 了 车 加 两 个 LSTM 层 的 例子 。 此 时 ， 第 一 个 LSTM 层 的 
隐藏 状态 是 第 二 个 LSTM 层 的 输入 。 按 照 同样 的 方式 ， 我 们 可 以 车 加 多 个 
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H 


LSTM 层 ， 从 而 学 习 更 加 复杂 的 模式 ， 这 和 前 馈 神 经 网 络 时 的 层 加 深 是 一 村 
。 在 前 作 《 深 度 学 习 和 人 门 : 基于 Python 的 理论 与 实现 》 中 ， 我 们 通过 县 
Affine 层 和 Convolution 层 ， 创 建 了 表现 力 更 好 的 模型 。 
那么 ， 应 该 玛 加 几 个 层 呢 ? 这 其 实 是 一 个 关于 超 参数 的 问题 。 因 为 层 
数 是 超 参数 ， 所 以 需要 根据 要 解决 的 问题 的 复杂 程度 、 能 给 到 的 训练 数据 
的 规模 来 确定 。 顺 便 说 一 句 ， 在 PTB 数据 集 上 学 习 语言 模型 的 情况 下 ， 当 
LSTM 的 层 数 为 2 ~ 4 时 ， 可 以 获得 比较 好 的 结果 。 













































































据 报 道 ， 谷 歌 翻译 中 使 用 的 GNMT 模 型 50] e zn T SE LSTM 的 
网 络 。 如 该 例 所 示 , 如 果 待 解决 的 问题 很 难 , 又 能 准备 大 量 的 训练 数据 ， 
就 可 以 通过 加 深 LSTM 层 来 提高 精度 。 
















































































6.5.2 ”基于 Dropout 抑 制 过 拟 合 


hl LSTM 层 ， 可 以 期 竺 能够 学 习 到 时 序数 据 的 复杂 依赖 关系 。 
s 通过 加 深层 ， 可 以 创建 表现 力 更 强 的 模型 ， 但 是 这 样 的 模型 往往 
会 发 生 过 拟 合 (overfitting )。 更 糟糕 的 是 ，RNN 比 常 规 的 前 馈 神经 网 络 更 
容易 发 生 过 拟 合 ， 因 此 RNN 的 过 拟 合 对 策 非常 重要 。 
























































过 拟 合 是 指 过 度 学 习 了 训练 数据 的 状态 ， 也 就 是 说 ， 过 拟 合 是 一 种 
缺乏 泛 化 能 力 的 状态 。 我 们 想 要 的 是 一 个 泛 化 能 力 强 的 模型 ， 因 此 
必须 基于 训练 数据 和 验证 数据 的 评价 差异 ， 判 断 是 否 发 生 了 过 拟 合 ， 
并 据 此 来 进行 模型 的 设计 。 










































































抑制 过 拟 合 已 有 既定 的 方法 : 一 是 增加 训练 数据 ; 二 是 降低 模型 的 复杂 

。 我 们 会 优先 考虑 这 两 个 方法 。 除 此 之 外 ， 对 模型 复杂 度 给 予 惩罚 的 正则 
SIRO 比如 ，L2 正则 化 会 对 过 大 的 权重 进行 惩罚 。 

此 外 ， 像 Dropout?! 这 样 ， 在 训练 时 随机 忽略 层 的 一 部 分 C 比如 
5096) 神经 元 ， 也 可 以 被 视 为 一 种 正则 化 〈 图 6-30 )。 本 节 我 们 将 仔细 研究 
Dropout ， 并 将 其 应 用 于 RNN。 
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(a) 常规 的 神经 网 络 


























图 6-30 Dropout 的 概念 图 (参考 文献 [9]): 左 边 是 常规 的 神经 网 络 ， 右 边 是 使 用 了 
Dropout 的 网 络 


如 图 6-30 所 示 ，Dropout 随机 选择 一 部 分 神经 元 ， 然 后 忽略 它们 ， 停 
止 向 前 传递 信号 。 这 种 “随机 忽视 ”是 一 种 制约 ， 可 以 提高 神经 网 络 的 泛 
化 能 力 。 我 们 在 前 作 《 深度 学 习 入 门 : 基于 Python 的 理论 与 实现 》 中 已 
经 实现 了 Dropout。 如 图 6-31 所 示 ， 当 时 我 们 给 出 了 在 激活 函数 后 插入 
Dropout 层 的 示例 ， 并 展示 了 它 有 助 于 抑制 过 拟 合 。 
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6-31 将 Dropout 层 应 用 于 前 馈 神 经 网 络 的 例子 


那么 ,在 使 用 RNN 的 模型 中 ， 应 该 将 Dropout 层 搬 和 人 哪里 呢 ? 首先 可 
以 想到 的 是 搬入 在 LSTM 层 的 时 序 方向 上 ， 如 图 6-32 所 示 。 不 过 答案 是 ， 
这 并 不 是 一 个 好 的 插 人 方式 。 






































6-32 不 好 的 例子 : 在 时 序 方 向 上 插入 Dropout 层 


如 果 在 时 序 方 向 上 搬入 Dropout， 那 么 当 模型 学 习 时 ， 随 着 时 间 的 推 
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移 ， 信 息 会 渐渐 丢失 。 也 就 是 说 ， 因 Dropout 产生 的 噪声 会 随时 间 成 比例 
地 积累 。 考 虑 到 噪声 的 积累 ， 最 好 不 要 在 时 间 轴 方向 上 插入 Dropout。 因 
此 ， 如 图 6-33 所 示 ， 我 们 在 深度 方向 (垂直 方向 ) 上 插入 Dropout 层 。 
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E]6-33 ”好 的 例子 : 在 深度 方向 (垂直 方向 ) 上 插入 Dropout 层 











这 样 一 来 ， 无 论 沿 时 间 方 向 ( 水 平方 向 ) 前 进 多 少 ， 信 息 都 不 会 丢失 。 
Dropout 与 时 间 轴 独立 ， 仪 在 深度 方向 ( 垂直 方向 ) 上 起 作用 。 























网 





现在 比较 一 下 图 6-31 和 图 6-33。 图 6-31 的 例子 展示 了 在 前 馈 神 
经 网 络 中 使 用 Dropout 的 情况 , 这 个 例子 在 深度 方向 上 应 用 了 
Dropout 。 以 相同 的 方式 ， 在 图 6-33 中 ， 通 过 在 深度 方向 上 应 用 
Dropout, ， 有 望 和 前 馈 神 经 网 络 时 一 样 ， 能 够 抑制 过 拟 合 。 
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如 前 所 述 ,“ 常 规 的 Dropout” 不 适合 用 在 时 间 方 向 上 。 但 是 ， 最 近 的 
人 研究 提出 了 多 种 方法 来 实现 时 间 方 向 上 的 RNN 正则 化 。 比 如 ,文献 [36] 中 
提出 的 “ 变 分 Dropout”( variational dropout ) 就 被 成 功 地 应 用 在 了 时 间 
方向 上 。 

除了 深度 方向 ， 变 分 Dropout 也 能 用 在 时 间 方 向 上 ， 从 而 进一步 提高 
语言 模型 的 精度 。 如 图 6-34 所 示 ， 它 的 机 制 是 同一 层 的 Dropout 使 用 相同 
的 mask。 这 里 所 说 的 mask 是 指 决定 是 否 传 递 数 据 的 随机 布尔 值 。 
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6-34 变 分 Dropout 的 例子 : 具有 相同 图 示 的 Dropout 使 用 相同 的 mask。 像 这 样 ， 
位 于 同一 层 的 Dropout 使 用 相同 的 mask， 对 时 间 方 向 上 的 Dropout 也 有 效果 
(参见 彩 图 ) 











如 图 6-34 所 示 ， 通 过 同一 层 的 Dropout 共用 mask, mask 被 “固定 ”。 
如 此 一 来 ， 信 息 的 损失 方式 也 被 “固定 ”， 所 以 可 以 避免 常规 Dropout 发 生 
的 指数 级 信息 损失 。 

















据说 变 分 Dropout 比 常规 Dropout 的 效果 更 好 。 不 过 ， 本章 
并 不 打算 使 用 变 分 Dropout， 而 是 仍 使 用 常规 Dropout。 变 分 
Dropout 的 想法 很 简单 ， 感 兴趣 的 读者 可 以 自己 尝试 实现 一 下 。 
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65.3 ”权重 共享 

改进 语言 模型 有 一 个 非常 简单 的 技巧 ， 那 就 是 权重 共享 (weight tying ) P788]. 
weight tying 可 以 直译 为 “权重 绑 定 "。 如 图 6-35 所 示 ， 其 含义 就 是 共享 
权重 。 
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图 6-35 ”语言 模型 中 共享 权重 的 例子 : Embedding 层 和 Softmax 前 的 A 人 hne 层 共享 权重 
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如 图 6-35 所 示 ， 绑 定 (共享 ) Embedding 层 和 Affine 层 的 权重 的 技巧 
在 于 权重 共享 。 通 过 在 这 两 个 层 之 间 共 享 权 重 ， 可 以 大 大 减少 学 习 的 参数 数 
量 。 尽 管 如 此 ， 它 仍 能 提高 精度 。 真 可 谓 一 石 二 鸟 ! 

现在 ， 我 们 来 考虑 一 下 权重 共享 的 实现 。 这 里 ， 假 设 词汇 量 为 凤 
LSTM 的 隐藏 状态 的 维 数 为 H, M Embedding 层 的 权重 形状 为 Vx H, 
Affine 层 的 权重 形状 为 万 x V. 此 时 ， 如 果 要 使 用 权重 共享 ， 只 需 将 
Embedding 层 权 重 的 转 置 设置 为 Affine 层 的 权重 。 这 个 非常 简单 的 技巧 可 
以 带 来 出 色 的 结果 。 
















































































为 什么 说 权重 共享 是 有 效 的 呢 ? 直观 上 ， 共 享 权 重 可 以 减少 需要 学 
习 的 参数 数量 ， 从 而 促进 学 习 。 另 外 ， 参 数 数量 减少 ， 还 能 收获 抑 
制 过 拟 合 的 好 处 。 论 文 [38] 从 理论 上 描述 了 权重 共享 为 什么 有 用 ， 
感 兴趣 的 读者 可 以 参考 一 下 。 
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6.5.4 ”更 好 的 RNNLM 的 实现 


至 此 ， 我 们 介绍 了 RNNLM 的 3 点 有 竺 改进 的 地 方 。 接 下 来 ,我 们 
来 看 一 下 这 些 技 巧 会 在 多 大 程度 上 有 效 。 这 里 ， 将 图 6-36 的 层 结构 实现 为 


BetterRnnlm 类 。 
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6-36 BetterRnnlm 类 的 网 络 结构 
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如 图 6-36 所 示 ， 改 进 的 3 点 如 下 : 





e LSTM 层 的 多 层 化 (此 处 为 2 层 ) 
e 使 用 Dropout ( 仅 应 用 在 深度 方向 上 ) 
e 权重 共享 ( Embedding 层 和 Affine 层 的 权重 共享 ) 





现在 ， 我 们 来 实现 进行 了 这 3 点 改进 的 BetterRnntm 类 ， 如 下 所 和 示 
( & ch06/better rnnlm.py )。 


import sys 

sys.path.append('..') 

from common.time layers import * 

from common.np import * 

from common.base model import BaseModel 


class BetterRnnlm(BaseModel): 
def | init (self, vocab size-10000, wordvec size-650, 
hidden size-650, dropout ratio-0.5): 
V, D, H = vocab size, wordvec size, hidden size 
rn = np.random. randn 


embed W = (rn(V, D) / 100).astype('f') 


lstm Wx1 = (rn(D, 4 * H) / np.sqrt(D)).astype('f') 
lstm Whl = (rn(H, 4 * H) / np.sqrt(H)).astype('f') 
lstm bl = np.zeros(4 * H).astype('f') 
lstm Wx2 = (rn(H, 4 * H) / np.sqrt(H)).astype('f') 
lstm Wh2 = (rn(H, 4 * H) / np.sqrt(H)).astype('f') 
lstm b2 = np.zeros(4 * H).astype('f') 


affine b - np.zeros(V).astype('f') 


# 3 点 改进 ! 
self.layers = [ 
TimeEmbedding(embed W), 
TimeDropout(dropout ratio), 
TimeLSTM(lstm Wx1, lstm Whl, lstm bl, stateful-True), 
TimeDropout(dropout ratio), 
TimeLSTM(lstm Wx2, lstm Wh2, lstm b2, stateful-True), 
TimeDropout(dropout ratio), 
TimeAffine(embed W.T, affine b) # 权重 共享 !! 
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] 
self.loss layer = TimeSoftmaxWithLoss() 
self.lstm layers = [self.layers[2], self.layers[4]] 


[self.layers[1], self.layers[3], 


self.drop layers 
>  self.layers[5]] 
self.params, self.grads = [], [] 
for layer in self.layers: 
self.params += layer.params 
self.grads += layer.grads 


def predict(self, xs, train flg-False): 
for layer in self.drop layers: 
layer.train flg - train flg 
for layer in self.layers: 
xs = layer.forward(xs) 
return xs 


def forward(self, xs, ts, train flg-True): 
score - self.predict(xs, train flg) 
loss = self.loss layer.forward(score, ts) 
return loss 


def backward(self, dout=1): 
dout = self.loss layer.backward(dout) 
for layer in reversed(self.layers): 
dout = layer.backward(dout) 
return dout 


def reset state(self): 
for layer in self.lstm layers: 
layer.reset state() 

















Jk € 1$ x D FCR SL I MILF Pref gicE DONO 7;. Hop TE. AmA 
Time LSTM JZ, [di Hj Time Dropout 层 ， 并 在 Time Embedidng 层 和 
Time Affine 层 之 间 共 享 权重 。 

下 面 进 行 改进 过 的 BetterRnntm 类 的 学 习 。 在 这 之 前 ， 我 们 稍微 改动 一 
下 将 要 执行 的 学 习 代码 。 这 个 改动 是 ， 针 对 每 个 epoch 使 用 验证 数据 评价 困 
惑 度 ， 在 值 变 差 时 ， 降 低 学 习 率 。 这 是 一 种 在 实践 中 经 常用 到 的 技巧 ， 并 且 
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往往 能 有 好 的 结果 。 这 里 的 实现 参考 了 PyTorch 的 语言 模型 的 实现 示例 991, 
学 习 代 码 如 下 所 示 (e ch06/train better rnnlm.py )。 


import sys 

sys.path.append('..') 

from common import config 

# 在 用 GPU 运行 时 ， 请 打开 下 面 的 注释 (需要 cupy) 














from common.optimizer import SGD 

from common.trainer import RnnlmTrainer 
from common.util import eval perplexity 
from dataset import ptb 

from better rnnlm import BetterRnnlm 


* 设 定 超 参数 

batch size = 20 
wordvec size - 650 
hidden size - 650 
time size - 35 

lr = 20.0 

max epoch - 40 

max grad - 0.25 
dropout = 0.5 


# 读 入 训练 数据 

corpus, word to id, id to word = ptb.load data('train') 
corpus val, , _ = ptb.load data('val') 

corpus test, , = ptb.load data('test') 


vocab size - len(word to id) 
xs = corpus[:-1] 
ts = corpus[1:] 


model - BetterRnnlm(vocab size, wordvec size, hidden size, dropout) 
optimizer = SGD(lr) 
trainer = RnnlmTrainer(model, optimizer) 
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best ppl = float('inf') 
for epoch in range(max epoch): 
trainer.fit(xs, ts, max epoch-1, batch size-batch size, 


time size-time size, max grad-max grad) 


model.reset state() 
ppl = eval perplexity(model, corpus val) 
print('valid perplexity: ', ppl) 


if best ppl » ppl: 
best ppl = ppl 
model.save params() 
else: 
lr /= 4.0 
optimizer.lr = lr 
model.reset state() 
print('-' * 50) 


这 里 针对 每 个 epoch 使 用 验证 数据 评价 困惑 度 ， 当 它 比 之 前 的 困惑 度 
(best ppl) 低 时 ， 将 学 习 率 乘 以 1/4。 为 此 ， 我 们 用 for 循环 反复 执行 以 下 
处 理 : 通过 RnntmTrainer 类 的 fit() 方法 进行 一 个 epoch 的 学 习 ， 然 后 使 用 
E 。 现 在 让 我 们 运行 一 下 学 习 代码 。 


























这 个 学 习 需 要 相当 长 的 时 间 。 在 用 CPU 运行 的 情况 下 ， 需 要 2 天 左 
右 ; 而 如 果 用 GPU 运行 , 则 能 在 5 小 时 左右 完成 (在 用 GPU 运行 时 ， 
需要 去 掉 文 件 顶 部 import 语 句 中 的 # config.GPU = True 这 行 注释 )。 
比 外 ， 从 出 版 社 网 站 的 本 书 主页 可 以 获得 学 习 好 的 权重 
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执行 上 面 的 代码 ， 困 惑 度 平稳 下 降 ， 最 终 在 测试 数据 上 获得 了 困惑 度 为 
75.76 的 结果 ( 每 次 运行 结果 不 同 )。 考 虑 到 改进 前 的 RNNLM 的 困惑 度 约 
为 136， 这 个 结果 可 以 说 提升 很 大 。 通 过 LSTM 的 多 层 化 提高 表现 力 ， 通 
过 Dropout 提高 汉化 能 力 ， 通 过 权重 共享 有 效 利用 权重 ， 从 而 实现 了 精度 
的 大 幅 提高 。 
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6.5.5 前沿 研究 

至 此 ， 我 们 对 RNNLM 的 改进 就 结束 了 。 通 过 对 RNNLM 进行 若干 改 
造 ， 精 度 显 著 提 升 ， 在 PTB 数据 集 的 测试 数据 上 达到 了 75 左右 的 困惑 度 ， 
可 以 说 是 一 个 还 算 不 错 的 结果 。 不 过 ， 前 沿 研 究 走 得 更 远 。 这 里 我 想 简单 地 
介绍 一 下 最 新 的 研究 结果 ， 让 我 们 来 看 一 下 图 6-37。 


























Model Parameters Validation Test 
Mikolov & Zweig (2012) - KN-5 2Mt 一 141.2 
Mikolov & Zweig (2012) - KN5 + cache 2M: 一 125.7 
Mikolov & Zweig (2012) - RNN 6M* S 124.7 
Mikolov & Zweig (2012) - RNN-LDA 7M: 一 113.7 
Mikolov & Zweig (2012) - RNN-LDA + KN-5 + cache 9M* 一 92.0 
Zaremba et al. (2014) - LSTM (medium) 20M 86.2 82.7 
Zaremba et al. (2014) - LSTM (large) 66M 82.2 78.4 
Gal & Ghahramani (2016) - Variational LSTM (medium) 20M 81.9 土 0.2 79.7 土 0.1 
Gal & Ghahramani (2016) - Variational LSTM (medium, MC) 20M 一 78.6 x: 0.1 
Gal & Ghahramani (2016) - Variational LSTM (large) 66M 77.9 土 0.3 75.24: 0.2 
Gal & Ghahramani (2016) - Variational LSTM (large, MC) 66M 一 73.4 x: 0.0 
Kim et al. (2016) - CharCNN 19M - 78.9 
Merity et al. (2016) - Pointer Sentinel-LSTM 21M 72.4 70.9 
Grave et al. (2016) - LSTM 一 一 82.3 
Grave et al. (2016) - LSTM + continuous cache pointer 一 一 72.1 
Inan et al. (2016) - Variational LSTM (tied) + augmented loss 24M 75.7 73.2 
Inan et al. (2016) - Variational LSTM (tied) + augmented loss 51M 714 68.5 
Zilly et al. (2016) - Variational RHN (tied) 23M 67.9 65.4 
Zoph & Le (2016) - NAS Cell (tied) 25M 一 64.0 
Zoph & Le (2016) - NAS Cell (tied) 54M 62.4 
Melis et al. (2017) - 4-layer skip connection LSTM (tied) 24M 60.9 58.3 
AWD-LSTM - 3-layer LSTM (tied) 24M 60.0 57.8 
AWD-LSTM - 3-layer LSTM (tied) + continuous cache pointer 24M 53.9 52.8 











6-37 各 模型 在 PTB 数据 集 上 的 结果 (摘自 文献 [34] )。 表 中 的 Parameters 是 参数 总 
数 ，Validation 是 验证 数据 的 困惑 度 ，Test 是 测试 数据 的 困惑 度 


图 6-37 摘自 文献 [3 各， 该 表 总 结 了 过 去 各 个 阶段 最 优 语言 模型 在 PTB 
数据 集 上 的 困惑 度 结果 。 由 Test 列 可 知 ， 随 着 新 方法 被 提出 ， 困 惑 度 在 下 
降 ， 最 后 一 行 的 结果 是 52.8。 实 际 上 ， 这 个 52.8 是 一 个 非常 好 的 结果 。 在 
PTB 数据 集 上 的 困惑 度 接 近 50， 这 在 几 年 前 还 是 无 法 想象 的 。 

这 里 只 展示 了 最 先进 的 研究 结果 。 当 然 ， 我们 的 模型 和 它 还 有 相当 的 距 
A, BÆR 6-37 中 的 最 先进 的 模型 和 我 们 的 模型 有 很 多 共同 点 。 比 如 ， 最 
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先进 的 模型 使 用 了 多 层 LSTM 模型 ， 并 进行 了 基于 Dropout 的 正则 化 ( 变 
分 Dropout 和 DropConnect ? ) 和 权重 共享 。 在 此 基础 上 ， 它 进一步 使 用 
了 最 优化 和 正则 化 的 几 个 技巧 ， 并 严格 进行 了 超 参 数 的 调整 ， 最 终 达成 了 
52.8 这 样 惊人 的 值 。 
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第 8 章 会 详细 介绍 的 Attention。Attention 是 一 项 非常 重要 的 技术 ， 























6-37 中 有 一 个 名 为 AWD-LSTM 3-layer LSTM (tied) + continuous 





















































6.6 小 结 























在 许多 地 方 。 在 语言 模型 这 个 任务 中 ， 它 也 为 精度 提高 做 出 
































重大 贡献 。 让 我 们 期 待 第 8 章 的 Attention。 





本 章 的 主题 是 Gated RNN, 我 们 指出 了 上 一 章 的 简单 RNN 中 存在 的 
梯度 消失 ( 或 梯度 爆炸 ) 问题 ， 说 明了 作为 百代 层 的 Gated RNN (具体 指 
LSTM 和 GRU 等 ) 的 有 效 性 。 这 些 层 使 用 门 这 一 机 制 ， 能 够 更 好 地 控制 数 
据 和 梯度 的 流动 。 

另外 ， 本 章 使 用 LSTM 层 创建 了 语言 模型 ， 并 在 PTB 数据 集 上 进行 了 


学 习 ， 评 价 了 困惑 度 。 另 外 ， 通 过 LSTM 的 多 层 化 、Dropout 和 权重 共享 

















等 技巧 ， 成 功 地 大 幅 提高 了 精度 。 这 些 技巧 也 被 实际 用 在 了 2017 年 的 最 前 


沿 研 究 中 。 
下 一 章 我 们 ; 











各 使 用 语言 模型 生成 文本 。 之 后 ， 像 机 器 翻译 一 样 ， 我 们 将 





仔细 考察 一 个 将 某 种 语言 转换 为 另 一 种 语言 的 模型 。 





(D DropConnect 是 指 随机 无 视 权 重 自身 的 方法 。 








第 7 章 


基于 RNN 生成 文本 


不 存在 什么 完美 的 文章 ， 就 好 像 没有 完美 的 绝望 。 


一 一 村 上 者 树 《 且 听 风 吟 》 


在 第 5 章 和 第 6 章 中 ， 我 们 仔细 研究 了 RNN 和 LSTM 的 结构 及 其 实现 。 
现在 我 们 已 经 在 代码 层面 理解 了 它们 。 在 本 章 ，RNN 和 LSTM 将 大 显 身手 ， 





我 们 将 利用 LSTM 实现 几 个 有 趣 的 应 用 。 








首先 ， 本 章 将 使 用 语言 模型 进行 文本 生成 。 


























具体 来 说 ， 就 是 使 用 在 语 料 

















库 上 训练 好 的 语言 模型 生成 新 的 文本 。 然 后 ， 我 们 将 了 解 如 何 使 用 改进 过 的 
语言 模型 生成 更 加 自然 的 文本 。 通 过 这 项 工作 ， 我 们 可 以 〈 简单 地 ) 体验 基 


于 AI 的 文本 创作 。 








另外， 本 章 还 会 介绍 一 种 结构 名 为 seq2seq 的 新 神经 网 络 。seq2seq 是 
"(from) sequence to sequence" ( 从 时 序 到 时 序 ) 的 意思 ， 即 将 一 个 时 序数 
据 转换 为 另 一 个 时 序数 据 。 本 章 我 们 将 看 到 ， 通 过 组 合 两 个 RNN， 可 以 轻 


松 实现 seq2seq. seq2seq 可 以 应 用 于 多 个 应 用 ， 











比如 机 带 翻 译 、 聊 天 机 顺 人 





和 邮件 自动 回复 等 。 通 过 理解 这 个 简单 但 聪明 强大 的 seq2seq， 应 用 深度 学 


习 的 可 能 性 将 进一步 扩大 。 
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7.1 使 用 语言 模型 生成 文本 


我 们 已 经 用 几 章 的 篇 幅 讨 论 了 语 吞 言 模 型 。 如 前 所 述 ， 语 者 言 模 型 可 用 于 各 
种 各 样 的 应 用 ， 其 中 具有 代表 性 的 例子 有 机 咒 翻 译 、 语 音 识 别 和 文本 生成 。 
这 里 ,我 们 将 使 用 语言 模型 来 生成 文本 。 





7.1.1 使 用 RNN 生成 文本 的 步骤 

在 上 一 章 中 ， 我 们 使 用 LSTM 层 实 现 了 语言 模型 ， 这 个 语言 模型 的 网 
络 结构 如 图 7-1 所 示 。 顺 便 说 一 下 ， 我 们 还 实现 了 整体 处 理 (TRO 时 序数 
据 的 Time LSTM 层 和 Time Affine 层 。 
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图 7-1 上 一 章 实现 的 语言 模型 : 右 图 使 用 整体 处 理 时 序数 据 的 Time 层 ; 左 图 是 将 其 
开 后 的 层 结构 
现在 我 们 来 说 明 一 下 语言 模型 生成 文本 的 顺序 。 这 里 仍 以 “you say 
goobye and i say hello.” 这 一 在 语料库 上 学 习 好 的 语言 模型 为 例 ， 考 虑 将 
单词 i 赋 给 这 个 语言 模型 的 情况 。 此 时 ， 这 个 语言 模型 输出 图 7-2 中 的 概率 
分 布 。 
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图 7-2 ”语言 模型 输出 下 一 个 出 现 的 单词 的 概率 分 布 


语言 模型 根据 已 经 出 现 的 单词 输出 下 一 个 出 现 的 单词 的 概率 分 布 。 在 图 
7-2 的 例子 中 ， 语 言 模型 输出 了 当 给 定单 词 i 时 下 一 个 出 现 的 单词 的 概率 分 
布 。 那 么 ， 它 如 何 生成 下 一 个 新 单词 呢 ? 

一 种 可 能 的 方法 是 选择 概率 最 高 的 单词 。 在 这 种 情况 下 ， 因 为 选择 的 是 
概率 最 高 的 单词 ， 所 以 结果 能 唯一 确定 。 也 就 是 说 ， 这 是 一 种 “确定 性 的 ” 
方法 。 男 一 种 方法 是 “概率 性 地 ”进行 选择 。 根 据 概率 分 布 进行 选择 ， 这 样 
概率 高 的 单词 容易 被 选 到 ， 概 率 低 的 单词 难以 被 选 到 。 在 这 种 情况 下 ， 被 选 
到 的 单词 ( 被 采样 到 的 单词 ) 每 次 都 不 一 样 。 

这 里 我 们 想 让 每 次 生成 的 文本 有 所 不 同 ， 这 样 一 来 ， 生 成 的 文本 富有 
变化 ,会 更 有 趣 。 因 此 ， 我 们 通过 后 一 种 方法 ( 概率 性 地 选择 的 方法 ) 来 
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选择 单词 。 回 到 我 们 的 例子 中 ， 如 图 7-3 所 示 ， 假 设 (概率 性 地 ) 选择 了 单 
词 say。 
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图 7-3 ”根据 概率 分 布 采样 一 个 单词 





图 7-3 中 显示 了 根据 概率 分 布 进行 采样 后 结果 为 say 的 例子 。 在 图 7-3 
的 概率 分 布 中 ，say 的 概率 最 高 ， 所 以 它 被 采样 到 的 概率 也 最 高 。 不 过 请 注 
意 ， 这 里 选 到 say 并 不 是 必然 的 ( 不 是 确定 性 的 )， 而 是 概率 性 的 。 因 此 ， 
say 以 外 的 其 他 单词 根据 出 现 的 概率 也 可 能 被 采样 到 。 
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“确定 性 的 ”是 指 (算法 的 ) 结果 是 唯一 确定 的 , 是 可 预测 的 。 在 上 例 中 ， 
假设 选择 概率 最 高 的 单词 ， 那 么 这 就 是 一 种 确定 性 的 算法 。 而 “ 概 
率 性 的 ” 算法 则 概率 性 地 确定 结果 ， 因 此 每 次 实验 时 选 到 的 单词 都 
会 有 所 变化 (或 者 说 ， 存 在 变化 的 可 能 性 )。 









































































































































接 下 来 ， 采 样 第 2 个 单词 。 这 只 需要 重复 一 下 刚才 的 操作 。 也 就 是 说 ， 
将 生成 的 单词 say 输入 语言 模型 ， 获 得 单词 的 概率 分 布 ， 然 后 再 根据 这 个 概 
率 分 布 采样 下 一 个 出 现 的 单词 ， 如 图 7-4 所 示 。 
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7-4， 重 复 概 率 分 布 的 输出 和 采样 


之 后 根据 需要 重复 此 过 程 即 可 ( 或 者 直到 出 现 <eos> 这 一 结尾 记号 )。 
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这 样 一 来 ， 我 们 就 可 以 生成 新 的 文本 。 

这 里 需要 注意 的 是 ， 像 上 面 这 样 生成 的 新 文本 是 训练 数据 中 没有 的 新 生 
成 的 文本 。 因 为 语言 模型 并 不 是 背诵 了 训练 数据 ， 而 是 学 习 了 训练 数据 中 单 
词 的 排列 模式 。 如 果 语 言 模型 通过 语料库 正确 学 习 了 单词 的 出 现 模式 ， 我 们 
就 可 以 期 待 该 语言 模型 生成 的 文本 对 人 类 而 言 是 自然 的 、 有 意义 的 。 
































7.1.2 ”文本 生成 的 实现 

下 面 我 们 进行 文本 生成 的 实现 。 这 里 基于 上 一 章 实 现 的 Rnntm 类 
(= chg6/rnntm.py )， 来 创建 继承 自 它 的 RnntmGen 类 ， 然 后 向 这 个 类 添加 生成 
文本 的 方法 。 




















类 的 继承 是 指 继承 已 有 类 ， 创 建新 的 类 。 在 Python 中 ， 可 以 通过 
class New(Base) : 继承 Base 类 ， 创 建 New 类 。 









































RnnlmGen 类 的 实现 如 下 所 示 (= ch07/rnnlm gen.py )。 


import sys 

sys.path.append('..') 

import numpy as np 

from common.functions import softmax 

from ch06.rnnlm import Rnnlm 

from ch06.better rnnlm import BetterRnnlm 


class RnnlmGen(Rnnlm): 
def generate(self, start id, skip ids-None, sample size-100): 
word ids - [start id] 


X = start id 

while len(word ids) « sample size: 
x = np.array(x).reshape(1, 1) 
score = self.predict(x) 
p = softmax(score.flatten()) 


sampled = np.random.choice(len(p), size-1, p=p) 









































7. 使 用 语言 模型 生成 文本 | 279 
if (skip ids is None) or (sampled not in skip ids): 
X = sampled 
word ids.append(int(x)) 
return word ids 
这 个 类 用 generate(start id, skip ids, sample size) 生成 本 文 。 此 处 ， 





参数 start id Æ$ 





PTB 数据 集 对 原始 文本 进 
数字 被 N 蔡 换 。 另 外 ， 我 们 








PH <unk> N 等 被 预 处 到 





8 1 个 单词 ID sample size 表示 要 采样 的 单词 数量 。 男 外 ， 
Zl skip ids 是 单词 ID 列表 ( 比如 ，[12，29] )， 它 指定 的 单词 将 不 被 采样 。 
这 个 参数 用 于 排除 PTB 数据 集 





过 的 单词 。 














e 














行 了 预 处理 ， 稀 












































词 被 <unk> 蔡 换 ， 





<eos> 作 为 文本 的 分 隔 符 。 


generate() 方法 首先 通过 model.predict(x) 输出 各 个 单词 的 得 分 (得 
分 是 正规 化 之 前 的 值 )， 然 后 基于 p = 


数 对 得 分 进行 正规 化 ， 这 样 就 获得 了 我 们 想 要 的 概率 分 布 。 接 下 来 ， 使 








softmax(score), ， 使 用 Softmax PK 

















uu 


np,random.choice()， 根 据 这 个 概率 分 布 p 采样 下 一 个 单词 。 关 于 np. random. 
choice() ， 我 们 已 经 在 4.2.6 节 说 明 过 了 。 


model 的 


predict() 方法 进行 上 











须 是 二 维 数 组 。 因 此 ， 


将 它 的 提 


























即使 厂 





JÆ mini-batch 处 理 ， 


所 以 输入 Xx 必 














大 小 视 为 1， 


























T 


整理 成 


ZRI x 1 





只 输入 1 个 单词 ID 的 情况 下 ， 也 要 








的 NumPy 数 组 。 


现在 ,使 用 这 个 RnntmGen 类 进行 文本 生成 。 这 里 先 在 完全 没有 学 习 的 状 
态 〈 即 权重 参数 是 随机 初始 值 的 状态 ) 下 生成 文本 ， 代 码 如 下 所 示 (> che7/ 


generate text.py )。 


import sys 


sys.path.append('..') 


from rnnlm gen import RnnlmGen 
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from dataset import ptb 


corpus, word to id, id to word = ptb.load data('train') 
vocab size - len(word to id) 
corpus size - len(corpus) 


model = RnnlmGen() 
# model.load params('../ch06/Rnnlm.pkl') 





# 设 定 start 单 词 科 skip 单 词 
start word = 'you' 





start id - word to id[start word] 
skip words = ['N', '«unks', '$'] 
skip ids - [word to id[w] for w in skip words] 





3 生成 文本 

word ids = model.generate(start id, skip ids) 

txt = ' '.join([id to word[i] for i in word ids]) 
txt = txt.replace(' «eos»', '.\n') 

print(txt) 








这 里 ,第 1 个 单词 是 you， 我 们 将 它 的 单词 ID 设 为 start_id， 来 进行 
文本 生成 。 另 外 ， 指 定 不 参与 采样 的 单词 为 ['N'，'<unk>'，'$']。 生 成 文本 
的 generate() 方法 返回 单词 ID 列表， 因此 需要 将 单词 ID 列表 转化 为 句子 。 
这 可 以 通过 txt = ' '.join([id to word[i] for i in word ids]) 这 行 代码 进 
行 。join() 方法 通过 “' 分 隔 符 ' .join( 列表 )” 这 种 形式 连接 单词 。 下 面 我 们 
来 看 一 个 具体 的 例子 。 





>>> ' '.join(['you', 'say', 'goodbye']) 
'you say goodbye' 











运行 一 下 上 面 的 代码 ， 结 果 如 下 。 








you setback best raised fill steelworkers montgomery kohlberg told beam 
worthy allied ban swedish aichi mather promptly ramada explicit leslie 
bets discovery considering campaigns bottom petrie warm large-scale 
frequent temple grumman bennett ... 
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如 你 所 见 ， 输 出 的 文本 是 一 堆 乱 七 八 粳 的 单词 。 不 过 这 可 以 理解 ， 因 为 
这 里 的 模型 权重 使 用 的 是 随机 初始 值 ， 所 以 输出 了 没有 意义 的 文本 。 那 么 ， 
如 果 换 成 学 习 好 的 语言 模型 ， 结 果 会 怎样 呢 ? 我 们 利用 上 一 章 学 习 好 的 权重 
来 进行 文本 生成 。 为 此 ， 使 用 model.load params('../ch06/Rnnlm.pkl') ZA. 
上 一 章 学 习 好 的 权重 参数 ， 并 生成 文本 。 我 们 来 看 一 下 生成 的 文本 ( 每 次 的 
结果 都 不 一 样 )。 





























you 'll include one of them a good problems. 

moreover so if not gene 's corr experience with the heat of bridges a 
new deficits model is non-violent what it 's a rule must exploit it. 
there 's no tires industry could occur. 

beyond my hours where he is n't going home says and japanese letter. 
knight transplants d.c. turmoil with one-third of voters. 

the justice department is ... 





虽然 上 面 的 结果 中 可 以 看 到 多 处 语法 错误 和 意思 不 通 的 地 方 ， 不 过 
也 有 几 处 读 起 来 已 经 比较 像 句 子 了 。 仔 细 看 的 话 ， 这 个 模型 正确 生成 了 主 
语 和 动词 的 组 合 ， 比 如 “you’ll include..." "there's no tires..." "knight 
transplants...” 等 。 青 者 ， 它 在 一 定 程度 上 理解 了 形容 词 和 名 词 的 使 用 方 
法 ， 比 如 “good problems" "japanese letter” 等 。 另 外， 开头 的 “you':1 
include one of them a good problems.” 也 是 一 个 含义 通顺 的 句子 。 

如 上 所 述 ， 上 面 的 实验 生成 的 文本 在 某 种 程度 上 可 以 说 是 正确 的 ， 不 过 
结果 中 仍 有 许多 不 自然 的 地 方 ， 改 进 空间 很 大 。 虽 然 不 存在 “完美 的 文章 ”， 
但 是 至 少 我 们 可 以 追求 更 自然 的 文章 。 为 此 ， 我 们 应 该 怎么 做 呢 ? 当然 是 使 
用 更 好 的 语言 模型 ! 



























































7.1.3 ”更 好 的 文本 生成 

如 果 有 更 好 的 语言 模型 ， 就 可 能 有 更 好 的 文本 。 在 上 一 章 中 ,我 们 改进 
了 简单 的 RNNLM， 实现 了 “更 好 的 RNNLM”， 将 模型 的 困惑 度 从 136 降 
至 75。 现 在 ,我们 看 一 下 这 个 “更 好 的 RNNLM” 生 成 文本 的 能 
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在 上 一 章 中 ,我们 进行 了 BetterRnntm 类 的 学 习 ， 并 将 学 习 好 的 
权重 保存 为 了 文件 。 这 里 的 实验 需要 用 到 这 个 学 习 好 的 权重 文 
件 ， 我 们 可 以 从 出 版 社 网 站 的 本 书 主页 获取 。 将 这 个 权重 文人 
放 到 本 书 源 代码 的 ch06 目 录 下 ， 即 可 运行 本 实验 的 代码 ch07/ 

























































































generate better text.py, 


在 上 一 童 中， 我 们 将 更 好 的 语言 模型 实现 为 了 BetterRnntm 28, 3x Ht, 
像 刚 才 一 样 ， 继 承 这 个 类 ， 并 使 之 有 生成 文本 的 能 力 。BetterRnntmGen 类 的 
实现 和 刚刚 的 Rnntmcen 类 完全 一 样 ， 此 处 省 略 具体 说 明 。 

现在 ， 我 们 让 这 个 更 好 的 语言 模型 生成 文本 。 和 之 前 一 样 ， 第 1 个 单词 


是 you。 这 样 一 来 ， 下 述 文本 会 被 生成 (> ch07/generate better text.py )。 























you 've seen two families and the women and two other women of students. 
the principles of investors that prompted a bipartisan rule of which 
had a withdrawn target of black men or legislators interfere with the 
number of plants can do to carry it together. 

the appeal was to deny steady increases in the operation of dna and 


educational damage in the 1950s. 





可 以 看 出 ， 这 个 模型 生成 了 比 之 前 更 自然 的 文本 〈 可 能 有 些 主观 )。 最 
开始 的 句子 “you’ ve seen two families and the women...” 正 确 使 用 了 主 
语 、 动 词 和 宾语 ， 并 且 正 确 学 习 了 and 的 使 用 方法 (two families and the 
women )。 其 他 部 分 读 起 来 总 体 上 也 算 说 得 过 去 。 

虽然 这 里 生成 的 文本 仍然 存在 若干 问题 (特别 是 语义 方面 )， 但 是 从 某 
种 程度 上 来 说 ， 这 个 更 好 的 语言 模型 生成 了 更 加 自然 的 文本 。 通 过 进一步 改 
进 这 个 模型 ， 使 用 更 大 规模 的 语料库 ， 应 该 能 创造 出 更 加 自然 的 文本 。 

最 后 ， 我 们 尝试 给 这 个 更 好 的 语言 模型 输入 “the meaning of life is", 
让 它 生成 后 续 的 单词 ( 这 是 论文 [35] 中 所 做 的 实验 )。 为 了 做 这 个 实验 ,我 
们 按 顺 序 向 模型 输入 ['the'，'meaning'，'of'，'life']， 进 行 正 向 传播 。 此 
时 不 使 用 任何 输出 的 结果 ， 只 是 让 LSTM 层 记 住 这 些 单词 的 信息 。 然 后 ， 

以 单词 is 作为 开始 位 置 ， 生 成 “the meaning of life is” 的 后 续 内 容 。 
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这 个 实验 可 以 用 ch07/generate better text.py 实现 。 每 次 实验 生成 的 
文本 都 不 太一 样 ， 这 里 介绍 一 个 有 意思 的 结果 。 





























the meaning of life is not a good version of paintings. 








如 上 所 述 ， 语 言 模型 给 出 的 回答 是 “人 生 的 意义 并 不 是 一 种 状态 良好 的 
绘画 ”"。 虽然 搞 不 懂 什 么 才 是 “状态 良好 的 绘画 ”"， 不 过 说 不 定 这 其 中 有 什么 
深刻 的 意义 。 











7.30 ”seq2seq 模 型 


这 个 世界 充满 了 时 序数 据 。 文 本 数据 、 音 频数 据 和 视频 数据 都 是 时 序数 
据 。 另 外 ， 还 存在 许多 需要 将 一 种 时 序数 据 转换 为 另 一 种 时 序数 据 的 任务 ， 
比如 机 器 翻译 、 语 音 识 别 等 。 其 他 的 还 有 进行 对 话 的 聊天 机 器 人 应 用 、 将 源 
代码 转 为 机 器 语言 的 编译 器 等 。 

像 这 样 ， 世 界 上 存在 许多 输入 输出 均 为 时 序数 据 的 任务 。 从 现在 开始 ， 
我 们 会 考察 将 时 序数 据 转换 为 其 他 时 序数 据 的 模型 。 作 为 它 的 实现 方法 ,我 
们 将 介绍 使 用 两 个 RNN 的 seq2seq 模型 。 























7.2.1 Seq2sed 的 原理 

seq2seq 模型 也 称 为 Encoder-Decoder 模型 。 顾 名 思 义 ， 这 个 模型 有 两 
个 模块 一 一 Encoder ( 编码 器 ) 和 Decoder ( 解码 器 )。 编 码 器 对 输入 数据 
进行 编码 ， 解 码 器 对 被 编码 的 数据 进行 解码 。 


编码 是 基于 某 些 既定 规则 的 信息 转换 过 程 。 以 字符 码 为 例 , 将 字符 “A” 
` 转换 为 “1000001”( 二 进 制 ) 就 是 一 个 编码 的 例子 。 而 解码 则 将 被 编 

码 的 信息 还 原 到 它 的 原始 形态 。 仍 以 字符 码 为 例 ， 这 相当 于 将 位 模 
式 的 “1000001” 转 换 为 字符 “A”。 
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现在 ,我 们 举 一 个 具体 的 例子 来 说 明 seq2seq 的 机 制 。 这 里 考虑 将 日 语 
翻译 为 英语 ， 比 如 将 “ 吾 墓 ( 导 猫 忒 力 有 马 ”0 翻译 为 “I am a cat”。 此 时 ， 如 
图 7-5 所 示 ，seq2seq 基于 编码 顺和 解码 需 进 行 时 序数 据 的 转换 。 























I am a cat 
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图 7-5 ”基于 编码 器 和 解码 器 进行 翻译 的 例子 


如 图 7-5 所 示 ， 编 码 器 首先 对 “在 匡 往 猫 忒 为 如 ”这 人 句 话 进行 编码 ， 然 
后 将 编码 好 的 信息 传递 给 解码 器 ， 由 解码 需 生 成 目标 文本 。 此 时 ， 编 码 器 编 
码 的 信息 浓缩 了 翻译 所 必需 的 信息 ， 解 码 器 基于 这 个 浓缩 的 信息 生成 目标 
文本 。 

以 上 就 是 seq2seq 的 全 貌 图 。 编 码 器 和 解码 右 协 作 ， 将 一 个 时 序数 据 转 
换 为 另 一 个 时 序数 据 。 另 外 ,在 这 些 编码 器 和 解码 器 内 部 可 以 使 用 RNN。 
下 面 我 们 来 看 一 下 细节 。 首 先 来 看 编码 需 ， 它 的 层 结构 如 图 7-6 所 示 。 
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7-6 ”编码 器 的 层 结构 























(D "PGEEEC dS 2" 是 日 本 著名 作家 夏目 漆 石 的 代表 作 《 我 是 猫 》 的 书 名 ， 译 为 “我 是 猫 ”。 一 一 编者 注 
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由 图 7-6 可 以 看 出 ， 编 码 器 利用 RNN 将 时 序数 据 转换 为 隐藏 状态 hh。 
这 里 的 RNN 使 用 的 是 LSTM， 不 过 也 可 以 使 用 “简单 RNN” 或 者 GRU 等 。 
另外 ， 这 里 考虑 的 是 将 日 语句 子 分 割 为 单词 进行 输入 的 情况 。 





图 7-6 的 编码 器 输出 的 向 量 h 是 LSTM 层 的 最 后 一 个 隐藏 状态 ， 其 
编码 了 翻译 输入 文本 所 需 的 信息 。 是 
个 固定 长 度 的 向 量 。 说 到 底 ， 编 码 就 是 将 任意 长 度 的 文本 转换 为 一 个 固定 





























长 度 的 向 量 〈 图 7-7 )。 
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这 里 的 重点 是 ，LSTM 的 隐藏 状态 h 
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图 7-7 编码 器 将 文本 编码 为 固定 长 度 的 向 量 


如 图 7-7 所 示 ， 编 码 需 将 文本 转换 为 固定 长 度 的 向 量 。 那 么 ， 解 码 需 是 
如 何 “处 理 ” 这 个 编码 好 的 向 量 ， 从 而 生成 目标 文本 的 呢 ? 其 实 ， 我 们 已 经 
知道 答案 了 。 因 为 我 们 只 需要 直接 使 用 上 一 节 讨论 的 进行 文本 生成 的 模型 即 
可 ， 如 图 7-8 所 示 。 
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话 ， 译 为 “还 没有 名 字 ”。 
话 ， 译 为 “不 记得 是 在 哪 











一 一 编者 注 
出 生 的 ”。 一 一 编者 注 
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7-8 ”解码 器 的 层 结 构 


从 图 7-8 中 可 以 看 出 ,解码 器 的 结构 和 上 一 节 的 神经 网 络 完全 相同 。 
不 过 它 和 上 一 节 的 模型 存在 一 点 差异 ， 就 是 LSTM 层 会 接收 向 量 h。 在 


上 一 节 的 语言 模型 
LSTM 的 隐藏 状态 接收 “0 向 量 ” 








, LSTM 层 不 接收 任何 信息 


言 模型 进化 为 可 以 驾驭 翻译 的 解码 融 。 









































〈 硬 要 说 的 话 ， 也 可 以 说 
)。 这 个 唯一 的 、 微 小 的 改变 使 得 普通 的 语 





(特殊 符号 )。 这 个 分 隔 符 被 用 作 















































Z 7-8 中 使 用 了 <eos> 这 一 分 隔 符 

通知 解码 器 开始 生成 文本 的 信号 。 另 外 ， 解 码 器 采样 到 <eos> 出 
见 为 止 ， 所 以 它 也 是 结束 信号。 也 就 是 说 ， 分 P 

来 指示 解码 器 的 “开始 /结束 ”。 在 其 他 文献 中 ， 也 有 使 











<start> 或 者 “(下 划 线 ) 作 为 分 隔 符 的 例子 。 














ma fF <eos> 可 以 用 


<go>、 
































现在 我 们 连接 编码 器 和 解码 器 ， 并 给 出 它 的 层 结构 ， 具 体 如 图 7-9 


所 示 。 
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7-9 ”seq2seq 的 整体 的 层 结构 


如 图 7-9 所 示 ， 


seq2seq 由 两 个 LSTM 层 构 成 ， 即 编码 器 的 LSTM 和 





解码 器 的 LSTM。 此 时 ，LSTM 层 的 隐藏 状态 是 编码 器 和 解码 器 的 “桥梁 "。 


在 正 向 传播 时 ， 编 码 咒 的 编码 信息 
在 反 向 传播 时 ， 解 码 器 的 梯度 通过 这 个 “ 


7.2.2 ”时 序数 据 转 换 的 简 


尝试 
下 面 我 们 来 实现 seq2seq， 不 过 在 此 之 前 ， 


,通过 LSTM 层 的 隐藏 状态 传递 给 解码 器 ; 
‘桥梁 ”传递 给 编码 器 。 


首先 说 明 一 下 我 们 要 处 理 的 





问题 。 这 里 我 们 将 “加 法 ” 视 为 一 个 时 序 转换 问题 。 具 体 来 说 ， 如 图 7-10 
所 示 ， 在 seq2seq 学 习 后 ， 如 果 输 入 字符 串 “57 + 5”，seq2seq 要 能 正确 


回答 “62”。 


"toy problem", 


顺便 说 一 下 ， 这 种 为 了 评价 机 带 学 习 而 创建 的 简单 问题 ， 


称 为 





«512-5? 一 seq2seq LL» «62» 
4^628--521"—»  seq2seq — “1149” 
499()4-8" —> seq2seq LL «998? 

















7-10 让 seq2seq 学 习 加 法 的 例子 
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在 我 们 看 来 ， 这 里 做 的 加 法 运算 是 非常 简单 的 问题 ， 但 是 seq2seq 对 加 
法 ( 更 确切 地 说 是 加 法 的 逻辑 ) 一 无 所 知 。seq2seq 从 加 法 的 例子 (样本 ) 
中 学 习 出 现 的 字符 模式 ， 这 样 真 的 可 以 学 习 到 加 法 运算 的 规则 吗 ? 这 正 是 本 
次 实验 的 看 头 。 

顺便 说 一 下 ， 在 之 前 的 word2vec 和 语言 模型 中 ， 我 们 都 把 文本 以 单词 
为 单位 进行 了 分 割 ， 但 并 非 必须 这 样 做 。 对 于 本 节 的 这 个 问题 ， 我 们 将 不 以 
单词 为 单位 ， 而 是 以 字符 为 单位 进行 分 割 。 在 以 字符 为 单位 进行 分 割 的 情况 
下 ,“57 十 5” 这样 的 输入 会 被 处 理 为 ['5'，'7'，'+'，'5'] 这 样 的 列表 。 






































7.2.3 可 变 长 度 的 时 序数 据 

我 们 将 “加 法 ” 视 为 字符 〈 数 字 ) 列表 。 这 里 需要 注意 的 是 ， 不 同 的 加 
法 问题 ("57 4-5" sk "628 + 521” 等 ) 及 其 回答 (“62” 或 者 “1149” 等 ) 
的 字符 数 是 不 同 的 。 比 如 ,“57 十 5” 共有 4 个 字符 ， 而 “628 + 521” 共 有 
7 个 字符 。 

如 此 ,在 加 法 问题 中 ， 每 个 样本 在 时 间 方 向 上 的 大 小 不 同 。 也 就 是 说 ， 
加 法 问题 处 理 的 是 可 变 长 度 的 时 序数 据 。 因 此 ， 在 神经 网 络 的 学 习 中 ,， 在 进 
行 mini-batch 处 理 时 ， 需 要 想 一 些 应 对 办 法 。 


在 使 用 批 数据 进行 学 习 时 ， 会 一 起 处 理 多 个 样本 。 此 时 ,，( 在 我 们 的 
实现 中 ) 需要 保证 一 个 批 次 内 各 个 样本 的 数据 形状 是 一 致 的 。 


在 基于 mini-batch 学 习 可 变 长 度 的 时 序数 据 时 ， 最 简单 的 方法 是 使 用 
填充 《padding )。 所 谓 填充 ， 就 是 用 无 效 〈 无 意义 ) 数据 填 入 原始 数据 ， 从 
而 使 数据 长 度 对 齐 。 就 上 面 这 个 加 法 的 例子 来 说 ， 如 图 7-11 所 示 ， 在 多 余 
位 置 插入 无 效 字符 ( 这 里 是 空白 字符 )， 从 而 使 所 有 输入 数据 的 长 度 对 齐 。 
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输入 输出 
iS[v]l-]s| | |] Joa | | 
6[2|8 -/5|2|1  [1|1/|4[9| 
2|210|+|8| -|2[2]8] | 

















图 7-11 为 了 进行 mini-batch 学 习 , 使 用 空白 字符 进行 填充 ， 使 输入 和 输出 的 大 小 对 齐 


本 次 的 问题 处 理 的 是 0 ~ 999 的 两 个 数 的 加 法 。 因 此 ， 包 括 “+” 在 
内 ， 输 入 的 最 大 字符 数 是 7。 另 外 ， 加 法 的 结果 最 大 是 4 个 字符 ( 最 大 为 
“999 + 999 = 1998”)。 因 此 ， 对 监督 数据 也 进行 类 似 的 填充 ， 从 而 对 齐 所 
有 样本 数据 的 长 度 。 另 外 ， 在 本 次 的 问题 中 ， 在 输出 的 开始 处 加 上 了 分 隔 符 
“_”( 下 划 线 )， 使 得 输出 数据 的 字符 数 统一 为 5。 这 个 分 隔 符 作 为 通知 解码 
器 开始 生成 文本 的 信号 使 用 。 


对 于 解码 器 的 输出 ， 可 以 在 监督 标签 中 插入 表示 字符 输出 结束 的 
分 隔 符 ( 比 如 ”62 "sk" 1149 ”)。 但 是 ， 简 单 起 见 ， 这 里 我 


们 不 使 用 表示 字符 输出 结束 的 分 隔 符 。 也 就 是 说 ， 在 解码 器 生成 
字符 串 时 ， 始 终 输 出 固定 数量 的 字符 (这 里 是 包括 开始 处 的 “_” 
在 内 的 5 个 字符 )。 


















































































































































像 这 样 ， 通 过 填充 对 齐 数 据 的 大 小 ， 可 以 处 理 可 变 长 度 的 时 序数 据 。 但 
是 ， 因 为 使 用 了 填充 ，seq2sed 需要 处 理 原本 不 存在 的 填充 用 字符 ， 所 以 如 
果 追 求 严 冲 ， 使 用 填充 时 需要 向 seq2seq 添加 一 些 填充 专用 的 处 理 。 比 如 ， 
在 解码 器 中 输入 填充 时 ， 不 应 计算 其 损失 ( 这 可 以 通过 向 Softmax with 
Loss 层 添 加 mask 功能 来 解决 )。 再 比如 ， 在 编码 器 中 输入 填充 时 ，LSTM 
层 应 按 原样 输出 上 一 时 刻 的 输入 。 这 样 一 来 ，LSTM 层 就 可 以 像 不 存在 填充 
一 样 对 输入 数据 进行 编码 。 

这 里 的 内 容 有 一 些 复杂 ， 大 家 即使 无 法 理解 也 没有 关系 。 为 了 便于 理解 ， 
本 章 我 们 将 填充 用 字符 ( 空白 字符 ) 作为 普通 数据 处 理 ， 不 进行 特别 处 理 。 
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7.2.4 ”加 法 数据 集 








这 里 介绍 的 加 法 的 学 习 数 据 预先 存放 在 了 dataset/addition.txt 中 。 如 





图 7-12 所 示 ， 这 个 文本 文件 中 含有 50 000 个 加 法 样本 。 这 份 学 习 数 据 的 制 
作 人 参考 了 Keras 的 seq2seq 的 实现 401 








116475 - _91 
2 524607 659 
3 75422 . _97 
4 63422. . _85 

5 795-3 | 798 
6 706«-796 1502 
7 844 212 

8 844317 401 
9/943 -12 
10 642 -8 

11| 1848. | 26 
12 85452 ..137 
13 941 10 
14 8420 _28 
15 5+3 _8 
Lines: 50,000 Chars: 650,000 650 KB 








图 7-12 ”加 法 的 学 习 数 据 : 空白 字符 (空格 ) 用 灰色 的 点 表示 





为 了 使 用 Python 轻松 处 理 seq2seq 的 学 习 数 据 (文本 文件 )， 本 书 提 














供 了 一 个 专用 模块 (d 
vocab() 两 个 方法 。 





ataset/sequence.py )， 这 个 模块 有 load data() 和 get. 


load data(file name, seed) 读 入 由 file name 指定 的 文本 文件 ， 并 将 文 


本 转换 为 字符 ID， 返 





回 训练 数据 和 测试 数据 。 该 方法 内 部 设 有 随机 数 种 子 


seed 以 打 乱 数据 ， 分 割 训 练 数据 和 测试 数据 。 另 外 ，get_vocab() 方法 返回 
字符 与 ID 的 映射 字典 (实际 上 返回 char to id 和 id to_char )。 现 在 我 们 来 
看 一 下 实际 的 使 用 示例 ( ch07/show addition dataset .py )。 





import sys 
sys.path.append('. 





0) 


from dataset import sequence 
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(x train, t train), (x test, t test) = \ 
sequence.load data('addition.txt', seed-1984) 
char to id, id to char = sequence.get vocab() 


print(x train.shape, t train.shape) 
print(x test.shape, t test.shape) 
# (45000, 7) (45000, 5) 

# (5000, 7) (5000, 5) 


print(x train[0]) 
print(t train[0]) 

#[3 0 2 0 011 5] 
*[6 011 7 5] 


print(''.join([id to char[c] for c in x train[0]])) 
print(''.join([id to char[c] for c in t train[0]])) 
4 714118 

# 189 

















像 这 样 ， 使 用 sequence 模块 ， 可 以 轻松 地 读 入 seq2seq 用 的 数据 。 





这 


Hi, x train ȘI t train 存放 的 是 字符 ID。 男 外 ， 字 符 ID 和 字符 之 间 的 映 


射 可 以 使 用 char to id 和 id to char, 
































数据 集 原本 应 分 成 训练 用 、 验 证 用 和 测试 用 3 份 。 用 训练 数 



































居 进 















































行 学 习 , 用 验证 数据 进行 调 参 , 最 后 





= 


了 用 测试 数据 评价 模型 的 能 力 。 





















































而 简单 起 见 ， 这 里 只 分 成 训练 数据 和 测试 数据 2 份 ， 用 它们 进行 














模型 的 训练 和 评价 。 





7.3 ”seq2seq 的 实现 


seq2seq 是 组 合 了 两 个 RNN 的 神经 网 络 。 这 里 我 们 首先 将 这 两 个 RNN 
实现 为 Encoder 类 和 Decoder 类 ， 然 后 将 这 两 个 类 组 合 起 来 ， 来 实现 seq2seq 


类 。 我 们 先 从 Encoder 类 开始 介绍 。 


7.3.1 Encoder% 


如 图 7-13 所 示 ，Encoder 类 接收 字符 串 ， 将 其 转化 为 向 量 ho 





pm 
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7-13 Encoder 类 的 输入 输出 








如 前 所 述 ， 我 们 使 用 RNN 实现 编码 咒 。 这 里 ， 使 用 LSTM 层 实现 图 
7-14 的 层 结构 。 








LSTM || | LSTM [|| ; LSTM J ism || 7 LSTM || LSTM || | LSTM || | h 





J 
| | | | | | 
Embedding | Embedding Embedding Embedding | Embedding Embedding | Embedding 
x * x z 
1 | | | 
| | | | 
; eme "T ; ich 











7-14 编码 器 的 层 结构 





如 图 7-14 所 示 ，Encoder 类 由 Embedding 层 和 LSTM 层 组 成 。Embedding 
层 将 字符 ( 字符 ID ) 转化 为 字符 向 量 ， 然 后 将 字符 向 量 输入 LSTM 层 。 

LSTM 层 向 右 (时 间 方 向 ) 输出 隐藏 状态 和 记忆 单元 ， 向 上 输出 隐藏 状 
态 。 这 里 ， 因 为 上 方 不 存在 层 ， 所 以 丢弃 LSTM 层 向 上 的 输出 。 如 图 7-14 
所 示 ， 在 编码 器 处 理 完 最 后 一 个 字符 后 ， 输 出 LSTM 层 的 隐藏 状态 ho PR 
后 ， 这 个 隐藏 状态 h 被 传递 给 解码 器 。 


























编码 器 只 将 LSTM 的 隐藏 状态 传递 给 解码 器 。 尽管 也 可 以 把 
LSTM 的 记忆 单元 传递 给 解码 器 ， 但 我 们 通常 不 太 会 把 LSTM 的 
记忆 单元 传递 给 其 他 层 。 这 是 因为 ， LSTM 的 记忆 单元 被 设计 为 
只 给 自身 使 用 。 





































































































顺便 说 一 下 ， 我 们 已 经 将 时 间 方 向 上 进行 整体 处 理 的 层 实现 为 了 Time 
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LSTM 层 和 Time Embedding 层 。 使 用 这 些 Time 层 ， 我 们 的 编码 器 将 如 
图 7-15 所 示 。 








Time Embedding 











图 7-15 ”使 用 Time 层 实现 编码 器 


Encoder 类 如 下 所 示 。 这 个 Encoder 类 有 初始 化 _init _()、 正 向 传播 
forward() 和 反 疝 传播 backward() 这 3 个 方法 。 首 先 ， 我们 来 看 一 下 初始 化 
方法 (= ch07/seq2seq.py )。 





class Encoder: 
def init (self, vocab size, wordvec size, hidden size): 
V, D, H = vocab size, wordvec size, hidden size 
rn = np.random. randn 


embed W = (rn(V, D) / 100).astype(' 
lstm Wx = (rn(D, 4 * H) / np.sqrt(D 
lstm Wh = (rn(H, 4 * H) / np.sqrt(H 
lstm b = np.zeros(4 * H).astype('f' 


f') 
)).astype('f') 
)).astype('f') 

) 
self.embed - TimeEmbedding(embed W) 

self.lstm = TimeLSTM(lstm Wx, lstm Wh, lstm b, stateful-False) 


self.params = self.embed.params + self.lstm.params 
self.grads = self.embed.grads + self.lstm.grads 
self.hs - None 
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初始 化 方法 接收 vocab size, wordvec size 和 hidden size 这 3 个 参数 。 














字符 向 量 的 维 数 ，hidden_size 对 应 于 LSTM 层 的 隐藏 状态 的 维 数 。 

这 个 初始 化 方法 进行 权重 参数 的 初始 化 和 层 的 生成 。 最 后 ， 将 权重 参 
数 和 梯度 分 别 归 纳 在 成 员 变 量 params 和 grads 的 列表 中 。 因 为 这 次 并 不 保持 
Time LSTM 层 的 状态 ， 所 以 设 定 stateful-False, 
































“”[( 空白 字符 )、””)。 此 外 ，wordvec_ size 对 应 


vocab size 是 词汇 量 ， 相 当 于 字符 的 种 类 。 顺 便 说 一 下 ， 这 次 共有 13 种 字 


符 (数字 0~9、“+”、 立 于 


第 5 章 和 第 6 章 的 语言 模型 处 理 的 是 只 有 一 个 长 时 序数 据 的 问题 。 
那 时 我 们 设 定 Time LSTM 层 的 参数 stateful=True， 以 在 保持 












































隐藏 状态 的 同时 ， 处 理 长 时 序数 据 。 而 这 次 是 有 多 个 短 时 序数 据 
的 问题 。 因 此 ， 针 对 每 个 问题 重 设 LSTM 的 隐藏 状态 (为 0 向 


























接着 来 看 forward() 方法 和 backward() 方法 (= ch07/seq2seq.py )。 


def 


de 


-h 














g 


forward( 


forward(self, xs): 

xs = self.embed.forward(xs) 
hs = self.lstm.forward(xs) 
self.hs = hs 


return hs[:, -1, :] 


backward(self, dh): 
dhs = np.zeros like(self.hs) 
dhs[:, -1, :] = dh 


dout = self.lstm.backward(dhs) 
dout = self.embed.backward(dout) 
return dout 











它 作 为 编码 器 的 forward () 方法 的 输出 。 
在 编码 器 的 反 向 传播 中 ，LSTM 层 的 最 后 一 个 隐藏 状态 的 梯度 是 dh, 








量 ) 
星 )。 





编码 器 的 正 向 传播 调用 Time Embedding 层 和 Time LSTM 层 的 
) 方法 ， 然 后 取出 Time LSTM 层 的 最 后 一 个 时 刻 的 隐藏 状态 ， 


将 
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这 个 dh 是 从 解码 器 传 来 的 梯度 。 在 反 向 传播 的 实现 中 ， 先 生成 元 素 为 0 的 
张 量 dhs， 再 将 dh 存放 到 这 个 dhs 中 的 对 应 位 置 。 剩 下 的 就 是 调用 Time 
Embedding 层 和 Time LSTM 层 的 backward() 方法 。 以 上 就 是 Encoder 类 的 


实现 。 








7.3.2 ”Decoder 类 





下 面 ， 我 们 继续 Decoder 类 的 实现 。 如 图 7-16 所 示 ，Decoder 类 接收 
Encoder 类 输出 的 h， 输 出 目标 字符 串 。 














elf [ | 


Encoder — h —» Decoder 


15|7| 二 5 | | 

















7-16 ”编码 器 和 解码 器 





如 前 所 述 ， 解 码 器 可 以 由 RNN 实现 。 和 编码 器 一 样 ， 这 里 也 使 用 
LSTM 层 ， 此 时 解码 器 的 层 结构 如 图 7-17 所 示 。 
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7-17 ”解码 器 的 层 结构 (学 习 时 ) 








图 7-17 显示 了 解码 需 在 学 习 时 的 层 结构 。 这 里 使 用 了 监督 数据 _62 进 








行 学 习 ， 此 时 输入 数据 是 ，'6'，'2'，，]， 对 应 的 输出 是 [6 ，'2，， 






























































































































































t, 5 ]e 
在 使 用 RNN 进行 文本 生成 时 ， 学 习 时 和 生成 时 的 数据 输入 方法 
不 同 。 在 学 习 时 ， 因 为 已 经 知道 正确 解 ， 所 以 可 以 整体 地 输入 时 
序 方向 上 的 数据 。 相 对 地 ， 在 推理 时 (生成 新 字符 串 时 )， 则 只 能 
输入 第 1 个 通知 开始 的 分 隔 符 (本 次 为 “”)。 然后， 基于 输出 采 
样 1 个 字符 ， 并 将 这 个 采样 出 来 的 字符 作为 下 一 个 输入 ， 如 此 重 











复 该 过 程 。 


顺便 说 一 句 ， 在 7.1 节 ， 在 进行 文本 生成 时 ， 我 们 基于 Softmax 函数 








的 概率 分 布 进行 了 采样 ， 因 此 生成 的 文本 会 随机 变动 。 因 为 这 次 的 问题 是 加 
法 ， 所 以 我 们 想 消除 这 种 概率 性 的 “波动 "， 生 成 “确定 性 的 ”答案 。 为 此 ， 
这 次 我 们 仅 选择 得 分 最 高 的 字符 。 也 就 是 说 ， 是 “确定 性 ”地 选择 ， 而 不 是 
“概率 性 ”地 选择 。 图 7-18 显示 了 解码 需 生 成 字符 串 的 过 程 。 
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图 7-18 解码 器 生成 字符 串 的 步骤 : 通过 argmax 节 点 从 Afne 层 的 输出 中 选择 最 大 值 
的 索引 (字符 ID ) 
如 图 7-18 所 示 ， 这 里 出 现 了 新 的 argmax 节点 ， 这 是 获取 最 大 值 的 索 
引 (本 例 中 是 字符 ID ) 的 节点 。 图 7-18 的 结构 和 上 一 节 展 示 的 文本 生成 时 
的 结构 相同 。 不 过 这 次 没有 使 用 Softmax 层 ， 而 是 从 Affine 层 输出 的 得 分 
中 选择 了 最 大 值 的 字符 ID. 
































Softmax 层 对 输入 的 向 量 进行 正规 化 。 此 时 ， 向 量 元 素 的 值 虽 然 
被 改变 ， 但 是 它们 的 大 小 关系 没有 变化 。 因 此 ， 在 图 7-18 的 情况 
下 ， 可 以 省 略 Softmax 层 。 




































































如 上 所 述 ， 在 解码 器 中 ， 在 学 习 时 和 在 生成 时 处 理 Softmax 层 的 方式 
是 不 一 样 的 。 因 此 ，Softmax with Loss 层 交 给 此 后 实现 的 Seq2seq 类 处 理 。 
如 图 7-19 HZR, Decoder 类 仅 承担 Time Softmax with Loss 层 之 前 的 部 分 。 
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7-19 Decoder 类 的 结构 





由 图 7-19 可 以 看 出 ，Decoder 类 由 Time Embedding, Time LSTM 和 
Time Affine 这 3 个 层 构 成 。 下 面 ， 我 们 来 看 一 下 Decoder 层 的 实现 。 这 里 
一 起 给 出 它 的 初始 化 init Q0 方法 、 正 向 传播 forward() 方法 和 反 向 传播 


backward() 方法 ( & ch07/seq2seq.py )。 











class Decoder: 
def | init (self, vocab size, wordvec size, hidden size): 
V, D, H = vocab size, wordvec size, hidden size 


rn = np.random.randn 


embed W = (rn(V, D) / 100).astype('f') 

lstm Wx = (rn(D, 4 * H) / np.sqrt(D)).astype('f') 

lstm Wh = (rn(H, 4 * H) / np.sqrt(H)).astype('f') 
) 


lstm b = np.zeros(4 * H).astype(' 
affine W - (rn(H, V) / np.sqrt(H) 
affine b = np.zeros(V).astype('f' 


f 
).astype('f') 
) 
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self.embed - TimeEmbedding(embed W) 
self.lstm = TimeLSTM(lstm Wx, lstm Wh, lstm b, stateful-True) 
self.affine - TimeAffine(affine W, affine b) 


self.params, self.grads = [], [1] 


for layer in (self.embed, self.lstm, self.affine): 


self.params += layer.params 


self.grads += layer.grads 


def forward(self, xs, h): 
self.lstm.set state(h) 


out = self.embed.forward(xs) 


out = self.lstm.forward(out) 


score = self.affine.forward(out) 


return score 


def backward(self, dscore): 


dout = self.affine.backward(dscore) 
dout = self.lstm.backward(dout) 
dout = self.embed.backward(dout) 


dh = self.lstm.dh 
return dh 


这 里 仅 对 反 向 传播 进行 一 些 补充 说 明 。 在 backward() 的 实现 中 ， 从 上 
方 的 Softmax with Loss 层 接收 梯度 dscore， 然 后 按 Time Affine 层 、Time 
LSTM 层 和 Time Embedding 层 的 顺序 传播 梯度 。Time LSTM 层 将 时 间 


方向 上 的 梯度 保存 在 Time LSTM 





层 的 成 员 变 量 dh 中 ( 具体 请 参考 6.3 节 )， 


因此 取出 时 间 方 向 上 的 梯度 dh， 将 其 作为 Decoder 类 的 backward() 的 输出 。 


如 前 所 述 ，Decoder 类 在 学 习 


时 和 在 生成 文本 时 的 行为 不 同 。 上 面 的 














forward() 方法 是 假定 在 学 习 时 使 
实现 为 generate()。 


def generate(self, h, start id, 


sampled = [] 
sample id = start id 
self.lstm.set state(h) 





j 的 。 我 们 将 Decoder 类 生成 文本 时 的 方法 


sample size): 
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for in range(sample size): 
x = np.array(sample id).reshape((1, 1)) 
out = self.embed.forward(x) 
out = self.lstm.forward(out) 
score = self.affine.forward(out) 


sample id = np.argmax(score.flatten()) 
sampled.append(int(sample id)) 


return sampled 


这 个 generate() 方法 有 3 个 参数 ， 分 别 是 从 编码 器 接收 的 隐藏 状态 n、 
最 开始 输入 的 字符 ID start id 和 生成 的 字符 数量 sample_size。 这 里 重复 如 
ME: 输入 一 个 字符 ， 选 择 Affine 层 输 出 的 得 分 中 最 大 值 的 字符 ID。 以 
上 就 是 Decoder 类 的 实现 。 


D: 























在 这 次 的 问题 中 ， 需 要 将 编码 器 的 输出 h 设 定 给 解码 器 的 Time 
LSTM 层 。 此 时 ， 通 过 设置 Timne LSTM 层 为 statefuL， 可 以 不 
重 设 隐藏 状态 ， 在 保持 编码 器 的 h 的 同时 ， 进 行 正 向 传播 。 
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7.3.8 Seq2seq3É 

最 后 来 看 Seq2seq 类 的 实现 。 话 虽 如 此 ， 这 里 需要 做 的 只 是 将 Encoder 
类 和 Decoder 类 连接 在 一 起 ， 然 后 使 用 Time Softmax with Loss 层 计 算 损 
失 而 已 。Seq2seq 类 的 实现 如 下 所 示 (=> ch07/seq2seq.py )。 





class Seq2seq(BaseModel): 
def | init (self, vocab size, wordvec size, hidden size): 
V, D, H = vocab size, wordvec size, hidden size 
self.encoder = Encoder(V, D, H) 
self.decoder - Decoder(V, D, H) 
self.softmax = TimeSoftmaxWithLoss() 


self.params = self.encoder.params + self.decoder.params 
self.grads = self.encoder.grads + self.decoder.grads 
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def forward(self, xs, ts): 
decoder xs, decoder ts - ts[:, :-1], ts[:, 1:] 


h = self.encoder.forward(xs) 
score = self.decoder.forward(decoder xs, h) 
loss = self.softmax.forward(score, decoder ts) 


return loss 


def backward(self, doutz1): 
dout = self.softmax.backward(dout) 
dh = self.decoder.backward(dout) 
dout = self.encoder.backward(dh) 
return dout 


def generate(self, xs, start id, sample size): 
h = self.encoder.forward(xs) 
sampled = self.decoder.generate(h, start id, sample size) 


return sampled 








Encoder 和 Decoder 的 各 类 中 已 经 实现 了 主要 的 处 理 ， 因 此 这 里 只 是 将 
它们 组 合 起 来 。 以 上 就 是 Sea2seq 类 的 实现 。 下 面 我 们 使 用 这 个 Seq2seq 25, 
来 挑战 一 下 加 法 问题 。 





7.44 ”seq2seq 的 评价 


Seq2seq 的 学 习 和 基础 神经 网 络 的 学 习 具 有 相同 的 流程 。 基 础 神经 网 络 
的 学 习 流 程 如 下 : 














1. 从 训练 数据 中 选择 一 个 mini-batch 
2. 基于 mini-batch 计算 梯度 
3. 使 用 梯度 更 新 权重 





这 里 使 用 1.4.4 节 说 明 过 的 Trainer 类 进行 上 述 操作 。 另 外 ，sed2seq ff 
对 每 个 epoch 求解 测试 数据 ( 生成 字符 串 )， 并 计算 正确 率 。seq2seq 的 学 习 
代码 如 下 所 示 (e ch07/train seq2seq.py )。 


jag 
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import sys 
sys.path.append('..') 
import numpy as np 
import matplotlib.pyplot as plt 
from dataset import sequence 
from common.optimizer import Adam 
from common.trainer import Trainer 
from common.util import eval seq2seq 
from seq2seq import Seq2seq 
from peeky seq2seq import PeekySeq2seq 
3 读 人 数据 集 
(x train, t train), (x test, t test) = sequence.load data('addition.txt') 
char to id, id to char = sequence.get vocab() 
# 设 定 超 参数 
vocab size = len(char to id) 
wordvec size = 16 
hidden size = 128 
batch size = 128 
max_epoch = 25 
max grad = 5.0 





# 生成 模型 /优化 器 /训练 器 


mode 
opti 
trai 


Beca 
for 


l = Seq2seq(vocab size, wordvec size, hidden size) 
mizer - Adam() 
ner - Trainer(model, optimizer) 


list = [] 
epoch in range(max epoch): 
trainer.fit(x train, t train, max epoch-1, 
batch size-batch size, max grad-max grad) 


correct num = 0 
for i in range(len(x test)): 
question, correct = x test[[i]], t test[[ill 
verbose - i « 10 
correct num += eval seq2seq(model, question, correct, 
id to char, verbose) 
acc = float(correct num) / len(x test) 
acc list.append(acc) 
print('val acc %.3f%%' % (acc * 100)) 
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这 里 显示 的 代码 和 基础 神经 网 络 的 学 习 











HERR CIEN 


























] 代 码 是 一 样 的 ， 不 过 这 里 采 





回答 了 多 少 问题 ) 作为 评价 指标 。 具 体 来 说 ， 就 是 针对 每 个 





epoch 对 正确 回答 了 测试 数据 中 的 多 少 问 题 进行 统计 。 


E 
里 


为 了 测 








上 述 实现 的 正确 率 ， 我们 使 用 common/util.py 中 的 eval_ 


seq2seq(model, question, correct, id to char, verbose, is reverse) 方法 。 





这 个 方法 向 模型 输 
型 给 出 的 答案 正确 





is reverse) 方法 


fH)question, IF jj 


入 问题 ， 

















eval seq2seq(model, question, 








CO 








生成 字符 串 ， 并 判断 它 是 否 与 答案 相符 。 如 果 模 
， 则 返回 1; 如 果 错 误 ， 则 返回 0. 


rrect, id to char, verbose, 


[id 











367^ £2. 

















首先 是 模型 model、 问 题 ( 


子 付 ID 





一 一 人 xs 








解 ( 











字符 
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T 
ZR 
(==) 


Ko 








符 映 射 的 字 


ID 列表 ) correct。 之 


数 
4L om 


后 是 进行 字符 ID 


to 











id to char, jEZE 

















反 转 输入 语 








A 
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关于 参数 is_reverse， 我 们 稍 
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JA 
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显示 在 终端 


名 








B3 verbose, f 





E — 4+ 
是 否 显示 结果 AE 














Bgis reverse, WR RE 














结 





verbose = True, Ml! 























上 。 这 次 的 实验 仅 显 示 最 初 的 10 份 测试 数 





上 上 述 代 码 后 ， 图 
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7-20 所 示 的 结果 会 显示 在 终端 ( 控制 台 ) EO, 
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Q 
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600257 
857 

864 
7614292 
1053 
1059 


8304597 


ch07 — -bash — 50x17 











7-20 ”终端 上 显示 的 部 分 结果 





(D 在 Windows 环 境 中 ， 





四 








x 








[15] Scars T f 


E BIA I. 























7% 
zs 





基于 RNN A 





FE 成 文本 











E, “区 
则 终端 上 会 显示 “IvV 

















如 图 7-20 所 示 ， 在 终端 上 ， 每 个 epoch 显示 一 次 
600 + 257” 这 样 的 问题 语句 ， 它 的 下 方 是 “T 857” 这 样 的 正确 多 








864” 是 我 们 的 模型 给 出 的 答案 。 如 果 我 们 的 模型 
864", 





我 们 再 看 一 下 随 着 学 习 的 进行 ， 上 





7-21 给 出 了 一 个 例子 。 

















ZH 




















结果 。 每 行 有 “Q 
答案 。 这 
全 出 了 正确 答案 ， 





硬 的 结果 会 发 生 什么 样 的 变化 。 图 








Q 975+164 
T 1139 
1563 
Q 582484 
T 666 
803 
Q 8+155 
T 163 
100 


Q 367455 
T 422 





ch07 — -bash — 50x17 


Q 8+155 
1 163 
162 


Q 367+55 

T 422 

Q 6004257 

T 857 
849 


Q 761+292 


ch07 — -bash — 50x17. 


ch07 — -bash — 50x17 


Q 600+257 

ch07 — -bash — 50x17. 
Q 8+155 
T 163 


Q 7614292 
T 1053 
1059 


Q 830+597 
T 1427 


1444 


Q 264838 
T 864 
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7-21 ”终端 上 显示 的 结果 的 变化 








seq2seq 最 开始 没 能 顺利 
WIEN 
epoch HJ IEW 
































结果 如 














习 答 问题 。 但 是 ， 随 着 学 习 不 断 进行 ， 
答案 ， 然 后 变 得 可 以 正 到 























图 7-21 中 展示 了 随 着 学 习 的 进行 而 出 现 的 几 个 结果 。 从 结果 中 可 知 ， 





ZH 


E H 


它 在 慢 慢 靠 


回答 一 些 问题 。 下 面 ， 我 们 来 绘制 一 下 每 个 
图 7-22 所 示 。 
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7-22 ”正确 率 的 变化 


由 图 7-22 可 知 ， 随 着 学 习 的 积累 ， 正 确 率 稳步 提高 。 本 次 的 实验 只 i 
行 了 25 次 ,最 后 的 正确 率 约 为 10%。 从 图 中 的 变化 趋 热 可知， 如 果 继 续 当 
习 ， 正 确 率 应 该 还 会 进一步 上 升 。 不 过 ， 为 了 能 更 好 地 学 习 相 同 的 问题 ( 
法 问题 )， 这 里 我 们 暂停 本 次 学 习 ， 对 seq2seq 进行 一 些 改 进 。 


4k RE 




















ur 
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7.4 seq2seq 的 改进 








本 节 我 们 对 上 一 节 的 seq2seq 进行 改进 ， 以 改进 学 习 的 进展 。 为 了 达成 
该 目标 ， 可 以 使 用 一 些 比较 有 前 景 的 技术 。 本 节 我 们 展示 其 中 的 两 个 方案 ， 
并 基于 实验 确认 它们 的 效果 。 
































7.1 反 转 输入 数据 (Reverse) 


第 一 个 改进 方案 是 非常 简单 的 技巧 。 如 图 7-23 所 示 ， 反 转 输入 数据 的 
顺序 。 
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7-23” 反 转 输入 数据 的 例子 





这 个 反 转 输入 数据 的 技巧 是 文献 [41] 中 提出 来 的 。 据 研究 ， 在 许多 情况 
下 ， 使 用 这 个 技巧 后 ， 学 习 进 展 得 更 快 ， 最 终 的 精度 也 有 提高 。 现 在 我 们 来 
做 一 下 实验 。 

为 了 反 转 输入 数据 ， 对 于 上 一 节 的 学 习 用 代码 (ch97/train seq2seq. 
py )， 在 读 和 数据 集 之 后 ， 我 们 追加 下 面 的 代码 。 

















3 读 人 数据 集 
(x train, t train), (x test, t test) = sequence.load data('addition.txt') 





Xx train, x test = x trainin -1 x testi: ml 


如 上 所 示 ， 可 以 使 用 x_train[:，::-1] 反 转 数组 的 排列 。 那 么 ， 通 过 反 
转 输 入 数据 ， 正 确 率 可 以 上 升 多 少 呢 ? 结果 如 图 7-24 所 示 。 














7.4 seq2seq 的 改进 | 307 






































1.0 
一 @ baseline 
—$— reverse 
0.84 
0.64 
1E 
确 
xx 
0.4 4 
0.24 
0.0 T T r r r 
0 5 10 15 20 25 
epochs 











7-24 seq2seq 的 正确 率 的 变化 : baseline 是 上 一 节 的 结果 ，reverse 是 反 转 输入 数据 
后 的 结果 





从 图 7-24 中 可 知 ， 仅 仅 通 过 反 转 输入 数据 ， 学 习 的 进展 就 得 到 了 改善 ! 
在 25 个 epoch 时 ， 正 确 率 为 50% 左右 。 青 次 重复 一 遍 ， 这 里 和 上 一 次 (图 
中 的 baseline ) 的 差异 只 是 将 数据 反 转 了 一 下 。 仪 仅 这 样 ， 就 产生 了 这 么 大 
的 差异 ， 真 是 令 人 吃惊 。 当 然 ， 虽然 反 转 数据 的 效果 因 任 务 而 异 ， 但 是 通常 
都 会 有 好 的 结 

为 什么 反 转 数据 后 ， 学 习 进 展 变 快 ， 精 度 提高 了 呢 ? 虽然 理论 上 不 是 很 
清楚 ,但 是 直观 上 可 以 认为 ， 反 转 数据 后 梯度 的 传播 可 以 更 平滑 。 比 如 ， 考 
BK AE (x 猫 T 557 OHZ “Iam a cat” 这 一 问题 ,单词 “ 吾 
莫 ” 和 单词 “I” 之 间 有 转换 关系 。 此 时 ， 从 “ 吾 曹 ”到 “I” 的 路 程 必须 经 
过 “ 导 ”“ 猫 *”“T”“ 轧 ”这 4 个 单词 的 LSTM 层 。 因 此 ， 在 反 向 传播 时 ， 
梯度 从 “I” 抵达“ 和 吾 理 ”， 也 要 受到 这 个 距离 的 影响 。 


















































(D 译 为 “我 是 猫 "， 不 仅 日 文 的 读者 只 需 明 白 该 句 可 以 拆 分 为 “ 吾 理 ”“( 玉 ”“ 猜 ” UOU "Ex 
词 即 可 。 一 一 编者 注 
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那么 ， 如 果 反 转 输 入 语句 ， 也 就 是 变 为 “加 如 ci x GE" GR 
会 怎样 呢 ? Iet, “AE GR OUI" 彼此 相 邻 ， 梯 度 可 以 直接 传递 。 如 此 ， 因 
为 通过 反 转 ， 输 入 语句 的 开始 部 分 和 对 应 的 转换 后 的 单词 之 间 的 距离 变 近 
《这样 的 情况 变 多 )， 所 以 梯度 的 传播 变 得 更 容易 ， 学 习 效 率 也 更 高 。 不 过 ， 
在 反 转 输入 数据 后 ， 单 词 之 间 的 “平均 ”距离 并 不 会 发 生 改 变 。 

















7.4.2” 偷 宽 (Peeky) 


接 下 来 是 seq2seq 的 第 二 个 改进 。 在 进入 正题 之 前 ， 我 们 再 看 一 下 编码 
器 的 作用 。 如 前 所 述 ， 编 码 器 将 输入 语句 转换 为 固定 长 度 的 向 量 h, AA h 
中 了 解码 器 所 需 的 全 部 信息 。 也 就 是 说 ， 它 是 解码 器 唯一 的 信息 源 。 但 
是 ， 如 图 7-25 所 示 ， 当 前 的 seq2seq 只 有 最 开始 时 刻 的 LSTM 层 利用 了 ho 
我 们 能 更 加 充分 地 利用 这 个 h 吗 ? 









































BIr E Embedding Embedding | Embedding Embedding 
- 6 2 




















7-25 ”改进 前 : 只 有 最 开始 的 LSTM 层 接 收编 码 器 的 输出 天 





为 了 达成 该 目标 ，seq2seq 的 第 二 个 改进 方案 就 应 运 而 生 了 。 具 体 来 说 ， 
就 是 将 这 个 集中 了 重要 信息 的 编码 器 的 输出 疡 分 配给 解码 器 的 其 他 层 。 我 
们 的 解码 器 可 以 考虑 图 7-26 中 的 网 络 结构 。 
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图 7-26 改进 后 : 将 多 


如 图 7-26 所 示 ， 将 编码 器 的 输出 
图 7-26 和 图 


LSTM 层 。 比 较 








7-25 可 知 ， 

















扁 码 器 的 输出 分 配给 所 有 时 刻 的 LSTM 层 和 人 Affine 层 





hh 分 配给 所 有 时 刻 的 Affine 层 和 


之 前 LSTM 层 专用 的 重要 信息 天 



































































































































现在 在 多 个 层 〈 在 这 个 例子 中 有 8 个 层 ) 中 共享 了 。 重 要 的 信息 不 是 一 个 人 
专 有 ， 而 是 多 人 共享 ， 这 样 我 们 或 许可 以 做 出 更 加 正确 的 判断 。 
这 里 的 改进 是 将 编码 好 的 信息 分 配给 解码 器 的 其 他 层 ， 这 可 以 解释 
层 也 能 “ 偷 宽 ”到 编码 信息 。 因 为 “ 偷 宽 ”的 英语 是 peek， 所 
以 将 这 个 改进 了 的 解码 器 称 为 Peeky Decoder。 同 理 , 将 使 用 了 
Peeky Decoder 的 sedq2seq 称 为 Peeky seq2seq。 这 个 想法 基于 文 


& [42] 。 


在 图 











concat 节点 拼接 两 个 向 量 








t, WIES 




















7-26 中 ， 有 两 个 向 量 同时 被 输入 到 了 LSTM 层 和 Affine 层 ， 这 实 
际 上 表示 两 个 向 量 的 拼接 ( concatenate )。 因 此 ， 在 刚才 的 图 中 ， 如 果 使 用 


的 计算 图 可 以 绘制 成 图 7-27。 
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Affine Affine 


| concat | 











7-27 在 Affne 层 的 输入 有 两 个 的 情况 下 ( 左 图 )， 将 它们 拼接 起 来 输入 Affne 层 ( 右 图 ) 

















下 面 给 出 PeekyDecoder 类 的 实现 。 这 里 仅 显 示 初 始 化 init 0 方法 和 
正 向 传播 forward() 方法 。 因 为 没有 特别 难 的 地 方 ， 所 以 这 里 省 略 了 反 向 传播 
backward() 方法 和 文本 生成 generate() 方法 (= ch07/peeky seq2seq.py )。 





class PeekyDecoder: 
def | init (self, vocab size, wordvec size, hidden size): 
V, D, H = vocab size, wordvec size, hidden size 
rn = np.random.randn 


embed W = (rn(V, D) / 100).astype('f') 

lstm Wx = (rn( H-* D, 4 * H) / np.sqrt(H + D)).astype('f') 
lstm Wh = (rn(H, 4 * H) / np.sqrt(H)).astype('f') 

lstm b = np.zeros(4 * H).astype('f') 


affine W= (rn( H+H , V) / np.sqrt(H + H)).astype('f') 
affine b = np.zeros(V).astype('f') 


self.embed - TimeEmbedding(embed W) 
self.lstm = TimeLSTM(lstm Wx, lstm Wh, lstm b, stateful-True) 
self.affine - TimeAffine(affine W, affine b) 


self.params, self.grads = [], [] 

for layer in (self.embed, self.lstm, self.affine): 
self.params += layer.params 
self.grads += layer.grads 

self.cache = None 
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def forward(self, xs, h): 
N, T = xs.shape 
N，H = h.shape 


self.lstm.set state(h) 


out = self.embed.forward(xs) 
hs = np.repeat(h, T, axis-0).reshape(N, T, H) 
out = np.concatenate((hs, out), axis-2) 


out = self.lstm.forward(out) 
out = np.concatenate((hs, out), axis-2) 


score = self.affine.forward(out) 
self.cache = H 
return score 


PeekyDecoder 的 初始 化 和 上 一 节 的 Decoder 基本 上 是 一 样 的 ， 不同 之 处 
仅 在 于 LSTM 层 权 重 和 Affine 层 权 重 的 形状 。 因 为 这 次 的 实现 要 接收 编码 
器 编码 好 的 向 量 ， 所 以 权重 参数 的 形状 相应 地 变 大 了 。 
接着 是 forward() 的 实现 。 这 里 首先 使 用 np.repeat() 根据 时 序 大 小 复 
制 相 应 份 数 的 h， 并 将 其 设置 为 ha。 然 后， 将 hs 和 了 Embedding 层 的 输出 
np.concatenate() 拼接 ， 并 输入 LSTM 层 。 同 样 地 ，Affine 层 的 输入 也 是 hs 
fll LSTM 层 的 输出 的 拼接 。 
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扁 码 器 和 上 一 节 没 有 变化 ， 因 此 直接 使 用 上 一 节 的 编码 器 。 





























最 后 ， 我 们 来 实现 Peekyseq2seq， 不 过 这 和 上 一 节 的 Seq2seq 类 基本 相 
同 ， 唯 一 的 区 别 是 Decoder 层 。 上 一 节 的 Seq2seq 类 使 用 了 Decoder 类 ， 与 
此 相对 ， 这 里 使 用 Peekypecoder， 剩 余 的 逻辑 完全 一 样 。 因 此 ，PeekySeq2seq 
类 的 实现 只 需要 继承 上 一 章 的 Seq2seq 类 ， 并 修改 一 下 初始 化 部 分 (会 che7/ 
peeky seq2seq.py )。 
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from seq 


2seq import Seq2seq, Encoder 


Class PeekySeq2seq(Seq2seq) : 


def 


. init (self, vocab size, wordvec size, hidden size): 


V, D, H = vocab size, wordvec size, hidden size 
self.encoder - Encoder(V, D, H) 

self.decoder = PeekyDecoder(V, D, H) 
self.softmax = TimeSoftmaxWithLoss() 


self.params = self.encoder.params + self.decoder.params 
self.grads = self.encoder.grads + self.decoder.grads 

















至 此 ， 准 备 工 作 就 完成 了 。 现 在 我 们 使 用 这 个 Peekyseq2seq 类 ， 再 次 
挑战 加 法 问题 。 学 习 用 代码 仍 使 用 上 一 节 的 代码 ， 只 需要 将 Seq2seq 类 换 成 


PeekySeq2seq 


# model 
model = 


类 。 


= Seq2seq(vocab size, wordvec size, hidden size) 
PeekySeq2seq(vocab size, wordvec size, hidden size) 


这 里 ， 我 们 在 第 一 个 改进 〈《 反 转 输入 ) 的 基础 上 进行 实验 ,结果 如 图 


7-28 所 示 。 











TREE 








1.0 
—9— baseline 
—$- reverse 


=- reverse + peeky 














epochs 








图 7-28 “reverse + peeky ”是 进行 了 本 节 的 两 个 改进 的 结果 
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如 图 7-28 所 示 ， 加 上 了 Peeky 的 seq2seq 的 结果 大 幅 变 好 。 刚 过 10 个 
epoch 时 ， 正 确 率 已 经 超过 90 色 ， 最 终 的 正确 率 接近 10096. 

从 上 述 实验 结果 可 知 ，Reverse 和 Peeky 都 有 很 好 的 效果 。 借 助 反 转 
输入 语句 的 Reverse 和 共享 编码 器 信息 的 Peeky， 我 们 获得 了 令 人 满意 的 
结果 ! 

这 样 我 们 就 结束 了 对 seq2seq 的 改进 ， 不 过 故事 仍 在 继续 。 实 际 上 ， 本 
节 的 改进 只 能 说 是 “小 改进 ”， 下 一 章 我 们 将 对 seq2seq 进行 “大 改进 ”"。 届 
时 将 使 用 名 为 Attention 的 技术 ， 它 能 使 seq2seq 发 生 巨大 变化 。 

这 里 的 实验 有 几 个 需要 注意 的 地 方 。 因 为 使 用 Peeky 后 ， 网 络 的 权重 
参数 会 额外 地 增加 ， 计 算 量 也 会 增加 ， 所 以 这 里 的 实验 结果 必须 考虑 到 相应 
地 增加 的 “负担 ”。 另 外 ，seq2seq 的 精度 会 随 着 超 参 数 的 调整 而 大 幅 变 化 。 
虽然 这 里 的 结果 是 可 靠 的 ， 但 是 在 实际 问题 中 ， 它 的 效果 可 能 不 稳定 。 








































































































7.5 seq2seq 的 应 用 


seq2seq 将 某 个 时 序数 据 转换 为 另 一 个 时 序数 据 ， 这 个 转换 时 序数 据 的 
框架 可 以 应 用 在 各 种 各 样 的 任务 中 ， 比 如 以 下 几 个 例子 。 





。 机 器 翻译 : 将 “一 种 语言 的 文本 ”转换 为 “ 另 一 种 语言 的 文本 ” 
。 自动 摘要 : 将 “一 个 长 文本 ”转换 为 “ 短 摘要 ” 
。 问答 系统 : 将 “问题 ”转换 为 “答案 ” 


。 邮件 自动 回复 : 将 “接收 到 的 邮件 文本 ”转换 为 “回复 文本 ” 


像 这 样 ，seq2seq 可 以 用 于 处 理 成 对 的 时 序数 据 的 问题 。 除 了 自然 语言 
之 外 ， 也 可 以 用 于 语音 、 视 频 等 数据 。 有 些 乍 一 看 不 属于 seq2seq 的 问题 ， 
通过 对 输入 输出 数据 进行 预 处 理 ， 也 可 以 应 用 sed2sedq。 本 节 将 介绍 几 个 使 
用 seq2seq 的 应 用 。 如 果 读 者 能 由 此 感受 到 seq2seq 的 潜力 和 乐趣 ， 那 就 再 
好 不 过 了 。 
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7.5.1 ”聊天 机 器 人 


聊天 机 器 人 是 人 和 计算 机 使 用 文本 进行 对 话 的 程序 ， 现 在 已 经 被 用 于 
Facebook, Twitter 等 各 种 各 样 的 服务 中 。 

毫 无 疑问 ， 聊 天 机 器 人 可 以 使 用 seq2seq。 因 为 对 话 是 由 “对 方 的 发 言 ” 
和 “本 方 的 发 言 ”构成 的 ， 可 以 理解 为 是 将 “对 方 的 发 言 ”转换 为 “本 方 的 
发 言 ” 的 问题 。 也 就 是 说 ， 如 果 有 对 话 文 本 数据 ，seq2seq 就 可 以 学 习 它 。 

另外 ， 聊 天 机 器 人 也 可 以 用 在 实用 场景 中 。 文 献 43] 进行 了 将 基 
于 seq2seq 的 聊天 机 器 人 应 用 于 工 帮助 台 的 实验 ， 并 展示 了 它 成 功 解决 
有 关 VPN 接 入 问题 的 例子 。 这 里 ， 我 们 将 其 中 的 一 部 分 对 话 翻译 成 中 文 
(E 7-29) 9 。 





















































机 器 : 你 好 。 

人 : 你 好 。 

机 器 : 请 问 你 使 用 的 是 什么 操作 系统 ? 
A: Linux, 


机 器 : 运行 时 报 的 错误 是 什么 ? 

人 : 报 了 一 个 有 关 VPN 的 错误 。 

机 器 : 在 用 VPN 联网 时 ， 显 示 了 什么 错误 消息 ? 
人 : 连接 未 成 功 之 类 的 。 


机 器 : 现在 你 是 在 公司 还 是 在 家 ? 
A: 在 家 。 
机 器 : 那 你 登录 一 下 这 个 网 址 <UREL> ， 输 入 你 的 用 户 名 和 密码 。 
人 : 好 了 。 

机 器 : 试 试 可 不 可 以 用 <NAME> 正常 登录 。 

人 : 好 像 可 以 了 。 
机 器 : 好 的 。 还 有 其 他 问题 吗 ? 
A: 没 了 ， 太 感谢 了 。 







































































7-29 ”使 用 基于 seq2seq 的 聊天 机 器 人 进行 对 话 的 例子 (参考 文献 [43] ) 





D 原文 是 英语 对 话 ， 本 书 日 文 原版 中 作者 翻译 为 了 日 文 , 这 里 译 者 翻译 为 了 中 文 。 一 一 译 者 注 
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从 图 7-29 ppl, peus ( 聊天 机 如 人 ) 很 好 地 解决 了 问题 ， 遇 到 VPN 
接 入 问题 的 人 被 引导 到 了 能 解决 该 问题 的 URL。 当 然 ， 它 只 能 解决 与 I 开 玫 
助 台 相 关 的 问题 ， 无 法 泛 化 。 但 是 ， 基 于 对 话 获取 答案 或 者 线索 ， 这 一 点 非 
常 实用 ， 应 用 范围 很 广 。 实 际 上 ， 这 样 的 服务 〈 简易 版 ) 已 经 可 以 在 若干 网 
站 上 看 到 。 





























7.5.2 ”算法 学 习 


本 章 进 行 的 seq2seq 实验 是 加 法 这 样 的 简单 问题 ， 但 理论 上 它 也 能 处 理 
更 加 高 级 的 问题 ， 比 如 图 7-30 所 示 的 Python 代码 。 














Input: 
j-8584 
for x in range(8): 
jt-920 
b- (15003) 
print ((b47567)) 
Target: 25011. 





Input: 

i-8827 

c= (175347) 

print((c*8704) if 2641«8500 else 5308) 
Target: 12184. 




















7-30 用 Python 写 的 代码 示例 : 图 中 的 Input 是 输入 ，Target 是 输出 ( 引 自 文献 [44] ) 


源 代 码 也 是 用 字符 编写 的 时 序数 据 。 我 们 可 以 将 跨行 的 代码 处 理 为 一 
条 语句 (将 换行 视 为 换行 符 )。 因 此 ， 可 以 直接 将 源 代码 输入 seq2seq, il 
seq2seq 对 源 代 码 与 目标 答案 一 起 进行 学 习 。 

上 述 包 含 for 语句 和 if 语句 的 问题 不 太 容 易 解 决 。 不 过 ， 即 便 是 这 样 
的 问题 ， 也 可 以 在 seq2seq 框架 内 处 理 。 通 过 改造 seq2seq 的 结构 ， 可 以 期 
待 这样 的 问题 能 够 被 解决 。 














下 一 章 将 介绍 RNN 的 扩展 一 一 NTM(Neural Turing Machine, 
神经 图 灵机 ) 模型 。 届 时 计算 机 (图 灵机 ) 将 学 习 内 存 的 读 写 顺 序 ， 
EMA. 
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7.5.3 ”自动 图 像 描述 


到 目前 为 止 ， 我们 只 看 了 处 理 文本 的 seq2seq 的 应 用 示例 ， 除 了 文本 之 
外 ，seq2seq 还 可 以 处 理 图 像 、 语 音 等 类 型 的 数据 。 本 节 我 们 来 看 一 下 将 图 
像 转换 为 文本 的 自动 图 像 描述 (image captioning ) [45] [46]。 

自动 图 像 描述 将 “图 像 ” 转 换 为 “文本 ”。 如 图 7-31 所 示 ， 这 也 可 以 在 
seq2seq 的 框架 下 解决 。 























I am a cat <eos> 
| | 
Soft Sofi Softmax | Soft | Soft 
Aff Affine Affine | Affine | Affi 
Aff I-——— ISTM |: LSTM || : | LSTM | LSTM LSTM 
| | 
| CNN Embedding Embedding Embedding | Embedding | Embedding 
| 
<eos> > I > am » a > cat 














7-31 ”用 于 自动 图 像 描述 的 seq2seq 的 网 络 结构 示例 





图 7-31 是 我 们 熟悉 的 网 络 结构 。 实 际 上 ， 它 和 之 前 的 网 络 的 唯一 区 别 
在 于 ， 编 码 器 从 LSTM 换 成 了 CNN (Convolutional Neural Network， 卷 
积 神经 网 络 )， 而 解码 器 仍 使 用 与 之 前 相同 的 网 络 。 仅 通过 这 点 改变 CHI 
CNN 替代 LSTM ), seq2seq 就 可 以 处 理 图 像 了 。 

这 里 补充 说 明 一 下 图 7-31 中 的 CNN。 此 处 ，CNN 对 图 像 进行 编码 ， 
这 时 CNN 的 最 终 答 出 是 特征 图 。 因 为 特征 图 是 三 维 〈 高 、 宽 、 通 道 ) HU, 
所 以 需要 想 一 些 办 法 让 解码 器 的 LSTM 可 以 处 理 它 。 于 是 ， 我 们 将 CNN 的 
特征 图 扁平 化 到 一 维 ， 并 基于 全 连接 的 Affine 层 进行 转换 。 之 后 ， 再 将 转 
换 后 的 数据 传递 给 解码 器 ， 就 可 以 像 之 前 一 样 生成 文本 了 。 
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7-31 A9 CNN {F 





























J VGG ResNet 等 成 熟 网 络 ， 并 使 用 在 别 的 图 





















































象 数据 集 (ImageNet 等 ) 上 学 习 好 的 权重 
从 而 生成 好 的 文本 。 

















有 ， 这 样 可 以 获得 好 的 编码 ， 





现在 我 们 看 几 个 基于 seq2seq 的 自动 图 像 描 述 的 例子 。 图 7-32 显示 的 














是 由 基于 TensorFlow 的 im2txt 471 生成 的 例子 。 此 处 使 用 的 网 络 基 于 图 
7-31， 并 在 其 上 进行 了 若干 改进 。 








A person on a beach 


flying a kite. 
(在 海滩 放风 筝 的 人 ) 











A person skiing down a 
Snow covered slope. 





A black and white photo of 
a train on a train track. 
































(铁轨 上 的 一 辆 火车 的 黑白 照片 ) 





iraffe standing 


ach other. 





(在 ied die 的 人 ) 





颈 鹿 站 在 一 起 ) 








图 7-32 ”自动 图 像 描述 的 例子 : 将 图 像 转换 为 文本 (参考 文献 [47] ) 


由 图 7-32 可 知 ， 这 里 得 到 了 很 不 错 的 结果 。 之 所 以 能 够 达到 这 样 的 效 





























果 ， 是 因为 存在 大 量 的 图 像 和 说 明文 字 等 训练 数据 ( 比如 ，ImageNet 等 大 
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规模 的 图 像 数据 )。 再 加 上 可 以 高 效 学 习 这 些 训练 数据 的 seq2seq 的 应 用 ， 
最 终 得 到 了 图 7-32 所 示 的 出 色 结 果 。 





7.6 ”小结 


本 章 我 们 探讨 了 基于 RNN 的 文本 生成 。 实 际 上 ， 我 们 只 是 稍微 改动 
了 一 下 上 一 章 的 基于 RNN 的 语言 模型 ， 增 加 了 文本 生成 的 功能 。 在 本 章 后 
半 部 分 ， 我 们 研究 了 seq2seq， 并 使 之 成 功 学 习 了 简单 的 加 法 。seq2seq 模 
型 拼接 了 编码 器 和 解码 器 ， 是 组 合 了 两 个 RNN 的 简单 结构 。 但 是 ， 尽 管 
seq2seq 简单 ， 却 具有 巨大 的 潜力 ， 可 以 用 于 各 种 各 样 的 应 用 。 

另外， 本章 还 介绍 了 改进 seq2seq 的 两 个 方案 Reverse 和 Peeky。 
我 们 对 这 两 个 方案 进行 了 实现 和 评价 ， 并 确认 了 它们 的 效果 。 下 一 章 我 们 将 
继续 改进 seq2seq， 届 时 深度 学 习 中 最 重要 的 技巧 之 一 Attention 将 会 出 现 。 
我 们 将 说 明 Attention 的 机 制 ， 然 后 基于 它 实 现 更 强大 的 seq2seq。 
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基于 RNN 的 语言 模型 可 以 生成 新 的 文本 

在 进行 文本 生成 时 ， 重复 “输入 一 个 单词 (字符 )， 基 于 模型 的 输出 
( 概率 分 布 ) 进行 采样 ”这 一 过 程 

通过 组 合 两 个 RNN， 可 以 将 一 个 时 序数 据 转换 为 另 一 个 时 序数 据 
( seq2seq ) 

在 seq2seq F, hif dX IDA RIXIETT ARR, RERO a DEIBOT ARI OCT- 
编码 信息 ， 获 得 目标 输出 语句 

反 转 输入 语句 ( Reverse ) 和 将 编码 信息 分 配给 解码 器 的 多 个 层 
( Peeky ) 可 以 有 效 提高 seq2seq 的 精度 

seq2seq 可 以 用 在 机 器 翻 译 、 聊 天 机 右 人 和 自动 图 像 描 述 等 各 种 各 样 
的 应 用 中 




















第 8 章 
Attention 





Vaswani 们 的 论文 标 


e 


上 一 章 我 们 使 用 RNN 生成 了 文本 ， 又 通过 连接 两 个 RNN， 将 一 个 时 
序数 据 转换 为 了 另 一 个 时 序数 据 。 我 们 将 这 个 网 络 称 为 seq2seq， 并 用 它 成 
功 求解 了 简单 的 加 法 问题 。 之 后 ， 我 们 对 这 个 seq2seq 进行 了 几 处 改进 ， 几 
乎 完美 地 解决 了 这 个 简单 的 加 法 问题 。 

本 章 我 们 将 进一步 探索 seq2seq 的 可 能 性 (以 及 RNN 的 可 能 性 )。 这 
E, Attention 这 一 强大 而 优美 的 技术 将 登场 。Attention 毫 无 疑问 是 近年 来 
深度 学 习 领 域 最 重要 的 技术 之 一 。 本 章 的 目标 是 在 代码 层面 理解 Attention 
的 结构 ， 然 后 将 其 应 用 于 实际 问题 ， 体 验 它 的 奇妙 效果 。 























8.1 Attention 的 结构 























如 上 一 章 所 述 ，seq2seq 是 一 个 非常 强大 的 框架 ， 应 用 面 很 广 。 这 里 我 
们 将 介绍 进一步 强化 seq2seq 的 注意 力 机 制 (attention mechanism， 简 称 
Attention )。 基 于 Attention 机 制 ，seq2seq 可 以 像 我 们 人 类 一 样 ， 将 “ 注 
意 力 ”集中 在 必要 的 信息 上 。 此 外 ， 使 用 Attention 可 以 解决 当前 seq2seq 
面临 的 问题 。 

本 节 我 们 将 首先 指出 当前 seq2seq 存在 的 问题 ， 然 后 一 边 说 明 Attention 
的 结构 ， 一 边 对 其 进行 实现 。 
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上 一 章 我 们 已 经 对 seq2seq 进行 了 改进 , 但 那些 只 能 算是 “小 改 
进 ”。 下面 将 要 说 明 的 Attention 技术 才 是 解决 seq2seq 的 问题 的 “大 


8.1.1 seq2seq 存 在 的 问题 


seq2seq 中 使 用 编码 器 对 时 序数 据 进 行 编码 ， 然 后 将 编码 信息 传递 给 解 
码 器 。 此 时 ， 编 码 器 的 输出 是 固定 长 度 的 向 量 。 实 际 上 ， 这 个 “固定 长 度 ” 
存在 很 大 问题 。 因 为 固定 长 度 的 向 量 意 味 着 ， 无 论 输 入 语句 的 长 度 如 何 〈 无 
论 多 长 )， 都 会 被 转换 为 长 度 相 同 的 向 量 。 以 上 一 章 的 翻译 为 例 ， 如 图 8-1 
所 示 ， 不 管 输入 的 文本 如 何 ， 都 需要 将 其 塞 人 一 个 固定 长 度 的 向 量 中 。 
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图 8-1 无 论 输 入 语句 多 长 ， 编 码 器 都 将 其 塞 入 固定 长 度 的 向 量 中 








无 论 多 长 的 文本 ， 当 前 的 编码 器 都 会 将 其 转换 为 固定 长 度 的 向 量 。 就 像 
把 一 大 堆 西 装 塞 人 衣柜 里 一 样 ， 编 码 需 强行 把 信息 塞 人 固定 长 度 的 向 量 中 。 
但 是 ， 这 样 做 早晚 会 遇 到 瓶 天 。 就 像 最 终 西 服 会 从 衣柜 中 掉 出 来 一 样 ， 有 用 
的 信息 也 会 从 向 量 中 溢出 。 

现在 我 们 就 来 改进 seq2seq。 首 先 改 进 编码 器 ， 然 后 再 改进 解码 器 。 


















































QD《 我 是 猫 ) 中 的 一 句 话 ， 译 为 “只 记得 我 在 一 个 昏暗 潮湿 的 地 方 噶 噶 地 淆 泣 着 ”。 一 一 编者 注 
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8.1.2 ”编码 器 的 改进 


到 目前 为 止 ， 我 们 都 只 将 LSTM 层 的 最 后 的 隐藏 状态 传递 给 解码 需 ， 
但 是 编码 需 的 输出 的 长 度 应 该 根据 输入 文本 的 长 度 相 应 地 改变 。 这 是 编码 器 
的 一 个 可 以 改进 的 地 方 。 有 具体 而 言 ， 如 图 8-2 所 示 ， 使 用 各 个 时 刻 的 LSTM 
层 的 隐藏 状态 。 
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8-2 ”使 用 编码 器 各 个 时 刻 ( 各 个 单词 ) 的 LSTIM 层 的 隐藏 状态 (这 里 表示 为 Ps ) 


如 图 8-2 所 示 ， 使 用 各 个 时 刻 〈 各 个 单词 ) 的 隐藏 状态 向 量 ， 可 以 获得 
和 输入 的 单词 数 相同 数量 的 向 量 。 在 图 8-2 的 例子 中 ,输入 了 5 个 单词 ， 此 
时 编码 器 输出 5 个 向 量 。 这 样 一 来 ， 编 码 需 就 摆脱 了 “一 个 固定 长 度 的 向 
量 ”的 制约 。 
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刻 的 LSTM 层 的 隐藏 状态 都 充满 了 什么 信 ， 
I 的 隐藏 状态 中 包含 了 大 量 当 前 时 刻 的 输入 单词 的 信息 。 就 图 8-2 的 
a 输入 “ 猫 ” 时 的 LSTM 层 的 输出 ( 隐藏 状态 ) 

“ 猫 ” 的 影响 最 大 。 因 此 ， 可 以 认为 这 个 隐藏 状态 向 





ABI 


后 时 刻 的 隐藏 状态 向 量 ” 
可 以 设置 return_sequences 为 True 或 者 False, 








8-2 中 我 们 需要 关注 LSTM 层 的 隐藏 状态 的 “内 





在 许多 深度 学 习 框架 中 ， 在 初始 化 RNN 层 (或 者 LSTM 层 、GRU 
层 等 ) 时 ,可 以 选择 是 返回 “全 部 时 刻 的 隐藏 状态 向 量 ”, 还 是 返回 “最 











。 比 如 ， 在 Keras 中 ， 在 初始 化 RNN 层 





Zu? 


Zi". 





此 时 ， 各 个 时 














Æ Zn 


Tau 





RUE? 有 一 点 可 以 确定 的 是 ， 各 


受 此 时 输入 的 单 


许多 “ 猫 的 成 


ri 










































































分 "。 按 照 这 样 的 理解 ， 如 图 8-3 所 示 ， 编 码 器 输出 的 hs 矩阵 就 可 以 视 为 各 
个 单词 对 应 的 向 量 集合 
hs 
e ZZ 
eol z 
p 
( mE 
编码 器 @ | - 6$ 
ZU CÓ 
图 8-3 ”编码 器 的 输出 几 s 具有 和 单词 数 相同 数量 的 向 量 ， 各 个 向 量 中 蕴含 了 各 个 单词 对 应 


的 信息 
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的 ， 所 以 严格 来 说 ， 刚 才 的 “ 猫 " 向 量 





























这 3 个 单词 








的 信 
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虑 整体 的 平衡 性 ， 

















EE 
单词 

















最 好 均衡 地 含有 


这 种 | 


青 况 下 ， 从 两 个 方 
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| 的 信息 。 
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] 处 理 时 序数 据 的 双向 
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或 者 双向 LSTM) 比 较 
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绍 双向 RNN ， 这 里 


= 


继续 使 
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3 效 。 我 们 后 














sa 向 LSTM 。 
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以 上 就 是 对 编码 器 的 改进 。 这 里 我 们 所 做 的 改进 只 是 将 编码 器 的 全 部 时 
刻 的 隐藏 状态 取出 来 而 已 。 通 过 这 个 小 改动 ， 编 码 器 可 以 根据 输入 语句 的 长 
度 ， 成 比例 地 编码 信息 。 那 么 ， 解 码 器 又 将 如 何 处 理 这 个 编码 器 的 输出 呢 ? 
接 下 来 ,我们 对 解码 器 进行 改进 。 因 为 解码 器 的 改进 有 许多 值得 讨论 的 地 
方 ， 所 以 我 们 分 3 部 分 进行 。 























8.1.3 ”解码 器 的 改进 人 


编码 器 整体 输出 各 个 单词 对 应 的 LSTM 层 的 隐藏 状态 向 量 hs。 然 后 ， 
这 个 hs 被 传递 给 解码 咒 ， 以 进行 时 间 序 列 的 转换 (网 8-4 )。 





I am a cat 
hs 
pe 
编码 器 
esq CHA 



































8-4 ”编码 器 和 解码 器 的 关系 


顺便 说 一 下 ， 在 上 一 章 的 最 简单 的 seq2seq 中 ， 仪 将 编码 带 最 后 的 隐藏 
状态 向 量 传递 给 了 解码 器 。 严 格 来 说 ， 这 是 将 编码 器 的 LSTM 层 的 “最 后 ” 
的 隐藏 状态 放 和 了 解码 需 的 LSTM 层 的 “最 初 ” 的 隐藏 状态 。 用 图 来 表示 
的 话 ， 解 码 器 的 层 结构 如 图 8-5 所 示 。 
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e uM | LSTM 
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e | | | | 
| 编码 器 | (ece beddi Embedding Embedding Embedding 
i | | | | 
BELTED «eos» I am a cat 











图 8-5 上 一 章 的 解码 器 的 层 结构 (学习 时 ) 


如 图 8-5 所 示 ， 上 一 章 的 解码 器 只 用 了 编码 需 的 LSTM 层 的 最 后 的 隐 
藏 状态 。 如 果 使 用 hs， 则 只 提取 最 后 一 行 ， 青 将 其 传递 给 解码 器 。 下 面 我 














们 改进 解码 器 ， 以 便 能 够 使 用 全 部 hs. 




















我 们 在 进行 翻译 时 ， 大 脑 做 了 什么 呢 ? ki, A UEGEGOHCAS" 
这 人 句 话 翻译 为 英文 时 ， 肯 定 要 用 到 诸如 “ 吾 理 =T“ 猫 = cat” 这 样 的 知识 。 
也 就 是 说 ， 可 以 认为 我 们 是 专注 于 某 个 单词 (或 者 单词 集合 )， 随 时 对 这 个 
单词 进行 转换 的 。 那 么 ， 我 们 可 以 在 seq2seq 中 重 现 同样 的 事情 吗 ? 确切 地 
说 ， 我 们 可 以 让 seq2seq 学 习 “ 输 入 和 输出 中 哪些 单词 与 哪些 单词 有 关 ” 这 


样 的 对 应 关系 吗 ? 






































在 机 器 翻译 的 历史 中 ， 很 多 











究 都 利用 “ 猫 =cat” 这 样 的 单词 对 应 

















关系 的 知识 。 这 样 的 表示 身 




















(alignment )。 到 目前 为 




















词 (或 者 词组 ) 对 应 关系 的 信息 称 为 对 齐 
上 ， 对 齐 主要 是 手工 完成 的 ， 而 我 们 将 要 介 






































AASI Attention 技术 则 成 功 地 将 对 齐 思想 自动 引入 到 了 seq2seq 中 。 
这 也 是 从 “手工 操作 ”到 “机 械 自动 化 ”的 演变 。 





























从 现在 开始 ， 我 们 的 目标 是 找 出 与 “翻译 目标 词 ” 有 对 应 关系 的 “翻译 
源 词 ”的 信息 ， 然 后 利用 这 个 信息 进行 翻译 。 也 就 是 说 ， 我 们 的 目标 是 仅 关 
注 必要 的 信息 ， 并 根据 该 信息 进行 时 序 转换 。 这 个 机 制 称 为 Attention， 是 














本 章 的 主题 。 
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在 介绍 Attention 的 细节 之 前 ， 这 里 我 们 先 给 出 它 的 整体 框架 。 我 们 要 
实现 的 网 络 的 层 结构 如 图 8-6 所 示 。 
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8-6 ”改进 后 的 解码 器 的 层 结构 








如 图 8-6 所 示 ， 我 们 新 增 一 个 进行 “ 某 种 计算 ”的 层 。 这 个 “ 某 种 计 
算 ” 接 收 (解码 器 ) 各 个 时 刻 的 LSTM 层 的 隐藏 状态 和 编码 器 的 hs。 然 后 ， 
从 中 选 出 必要 的 信息 ， 并 输出 到 Affine 层 。 与 之 前 一 样 ， 编 码 器 的 最 后 的 
隐藏 状态 向 量 传递 给 解码 需 最 初 的 LSTM 层 。 

图 8-6 的 网 络 所 做 的 工作 是 提取 单词 对 齐 信息 。 上 有 具体 来 说 ， 就 是 从 hs 
中 选 出 与 各 个 时 刻 解码 器 输出 的 单词 有 对 应 关系 的 单词 向 量 。 比 如 ， 当 图 
8-6 的 解码 器 输出 “IT” 时， 从 hs 中 选 出 “ 吾 曹 ”的 对 应 向 量 。 也 就 是 说 ， 
我 们 希望 通过 “ 某 种 计算 ”来 实现 这 种 选择 操作 。 不 过 这 里 有 个 问题 ， 就 是 
选择 ( 从 多 个 事物 中 选取 若干 个 ) 这 一 操作 是 无 法 进行 微分 的 。 



















































































神经 网 络 的 学 习 一 般 通 过 误差 反 向 传播 法 进行 。 因 此 ， 如 果 使 用 
可 微分 的 运算 构造 网 络 ， 就 可 以 在 误差 反 向 传播 法 的 框架 内 进行 
学 习 ; 而 如 果 不 使 用 可 微分 的 运算 ， 基 本 上 也 就 没有 办 法 使 用 误 
差 反 向 传播 法 。 
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可 否 将 “选择 ”这 一 操作 换 成 可 微分 的 运算 呢 ? 实 际 上 ， 解决 这 个 问题 
的 思路 很 简单 〈 但 是 ， 就 像 哥伦布 蛋 一 样 ， 第 一 个 想到 是 很 难 的 )。 这 个 思 
路 就 是 ， 与 其 “ 单 选 ， 不 如 “全 选 "。 如 几 8-7 所 示 ， 我 们 另行 计算 表示 各 
个 单词 重要 度 〈 贡献 值 ) 的 权重 。 












































hs a 

[2-- --- `O x 0.8 
fi --- 5060 x 0.1 
18--—-.e00€0 | x hoo» 
AQ sees e x  E0.05 
DA — -000 x 10.02 














8-7 ”对 各 个 单词 计算 表示 重要 度 的 权重 (后 文 介绍 如 何 计算 ) 


如 图 8-7 所 示 ， 这 里 使 用 了 表示 各 个 单词 重要 度 的 权重 ( 记 为 a)。 此 
时 ，a 像 概率 分 布 一 样 ， 各 元 素 是 0.0 ~ 1.0 的 标量 ， 总 和 是 1。 然 后 ， 计 
算 这 个 表示 各 个 单词 重要 度 的 权重 和 单词 向 量 hs 的 加 权 和 ， 可 以 获得 目标 
向 量 。 这 一 系列 计算 如 图 8-8 所 示 。 
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图 8-8 ”通过 计算 加 权 和 ， 可 以 得 到 上 下 文 向 量 


如 图 8-8 所 示 ， 计 算 单 词 向 量 的 加 权 和 ， 这 里 将 结果 称 为 上 下 文 向 量 ， 
并 用 符号 c 表示 。 顺 便 说 一 下 ， 如 果 我 们 仔细 观察 ， 就 可 以 发 现 “ 吾 便 ” 对 
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应 的 权重 为 0.8。 这 意味 着 上 下 文 向 量 c 中 含有 很 多 “ 吾 匡 ”向 量 的 成 分 ， 
可 以 说 这 个 加 权 和 计算 基本 代替 了 “选择 ”向 量 的 操作 。 假 设 “ 吾 理 ” 对 应 





的 权重 是 1， 其 他 单词 对 应 的 权重 是 0， 那 么 这 就 相当 于 “选择 ”了 “ 吾 墓 ” 


向 量 。 
























































文 向 量 c 中 包含 了 当前 时 刻 进行 变换 (翻译 ) 所 需 的 信息 。 更 
切 地 说 ， 模 型 要 从 数据 中 学 习 出 这 种 能 力 。 
























































FÉ 


ij， 我 们 从 代码 的 角度 来 看 一 下 目前 为 止 的 内 容 。 这 里 随意 地 生成 编 














码 器 的 输出 hs 和 各 个 单词 的 权重 a， 并 给 出 求 它 们 的 加 权 和 的 实现 ， 代 码 
如 下 所 示 ， 请 注意 多 维 数组 的 形状 。 





import numpy as np 


T,H=5,4 
hs = np.random.randn(T, H) 
a = np.array([0.8, 0.1, 0.03, 0.05, 0.02]) 


ar = a.reshape(5, 1l).repeat(4, axis-1) 


print(ar.shape) 
# (5, 4) 


t = hs * ar 
print(t.shape) 
# (5, 4) 


c = np.sum(t, axis-0) 


print(c.shape) 
# (4,) 


设 时 序数 据 的 长 度 T5， 隐 藏 状态 向 量 的 元 素 个 数 HH4， 这 里 给 出 了 加 
权 和 的 计算 过 程 。 我 们 先 关 注 代 码 ar = a.reshape(5, 1).repeat(4, axis-1), 
如 图 8-9 所 示 ， 这 行 代码 将 a 转化 为 ar。 
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QT (5 1) 


a ( 5, ) 0.8 
reshape 01 repeat 
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QT (5 4) 


0.8 | 0.8 | 0.8 | 0.8 





0.1 | 0.1 | 0.1 | 0.1 


3|0.03|0.03| 





I0.02|0.02|0.02|0.02 























8-9 ”通过 reshape() 和 repeat() 方 法 从 a 生成 ar( 变 量 的 形状 显示 在 其 右 侧 ) 


如 图 8-9 所 示 ， 我 们 要 做 的 是 复制 形状 为 (5,) Bg a, 创建 (5,4) 的 数组 。 
因此 ， 通 过 a.reshape(5，1) 将 a 的 形状 从 (5,) 转化 为 (5,1)。 然 后 ,在 第 1 
和 E 复 这 个 变形 后 的 数组 4 次 ， 生 成 形状 为 (5,4) 的 数组 。 





个 轴 方 向 上 ( axis-0 ) 


repe 
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limi 











at() 方法 复制 多 给 























指定 

















数组 的 元 素 生成 新 的 多 维 数组 。 设 x 为 NumPy 
多 维 数组 ， 则 可 以 像 x. repeat(rep，axis) 这 样 使 用 。 这 里 参数 rep 





























复制 的 次 数 ，axis 指定 要 进行 复制 的 

















(维度 )。 比如， 在 x 的 形 




















JRK (X, Y, Z) 的 情况 下 , x.repeat(3，axis=1) 沿 x 的 第 1 个 轴 方 向 (第 


1 个 


此 外 ， 这 里 





























也 可 以 不 使 用 repeat 方法 ， 而 使 











圣 度 ) 进行 复制 ， 生 成 形状 为 (X，3*Y，Z) 的 多 维 数组 。 

















] NumPy 的 广播 功能 。 





此 时 , 令 ar = a.reshape(5，1)， 然 后 计算 hs * ar。 如 图 8-10 所 示 ，ar 会 





自动 扩展 以 匹配 hs 的 形状 。 



























































图 8-10 NumPy 的 广播 


为 了 提高 执 和 











了 效率 ， 这 里 应 该 使 





] NumPy 的 广播 ， 而 不 是 repeat() 方 





法 。 但 是 ,在 这 种 情况 下 ， 需 要 注意 的 是 ,在 许多 我 们 看 不 见 的 地 方 多 维 数 
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组 的 元 素 被 复制 了 。 由 1.3.4.3 节 可 知 ， 这 相当 于 计算 图 中 的 Repeat 节点 。 
因此 ， 在 反 向 传播 时 ， 需 要 执行 Repeat 节点 的 反 向 传播 。 
如 图 8-10 所 示 ， es 应 元 素 的 乘积 ， 然 后 通过 c = np.sum(hs*ar, 








axis=0) 求 和 。 这 里 ， 通 过 参数 axis 可 以 指定 PE QM 维度 ) 上 求 和 。 
Eee EN MR axis 的 使 用 方法 就 会 。 比 如 ， 当 x 的 














形状 为 (X，Y，7Z) 时 ，np.sum(x，axis=1) 的 输出 (和) ee (X, Z), X 
里 的 重点 是 ， 求 和 会 使 一 个 轴 “ 消 失 ”。 在 上 面 的 例子 中 ，hs*ar 的 形状 为 
(5,4) ， 通 过 消除 第 0 个 轴 ， 获 得 了 形状 为 (4, ) 的 矩阵 (向量 )。 




















计算 加 权 和 最 简单 有 效 的 方法 是 使 用 矩阵 乘积 。 就 上 面 的 例子 来 
说 ,只 需要 np.dot(a，hs) 这 一 行 代码 就 可 以 获得 目标 结果 。 不 过 ， 
这 样 只 能 处 理 一 笔 数 据 ( 样 本 )， 很 难 将 其 扩展 到 批 处 理 。 如 果 非 
要 扩展 ， 就 需要 用 到 “ 张 量 积 ”， 这 会 使 事情 变 得 有 些 复杂 (在 这 
种 情况 下 ， 需 要 使 用 np.tensordot() 和 np.einsum() 方 法 )。 简 单 
起 见 ， 这 里 我 们 不 使 用 和 矩阵 乘积 ， 而 是 通过 repeat() 和 sum() 方 
法 来 实现 加 权 和 的 计算 。 
















































































































































































































































































下 面 进行 批 处 理 版 的 加 权 和 的 实现 ， 具 体 如 下 所 示 (这 里 随机 创建 hs 
和 a)。 








N, T, H= 10, 5, 4 

hs = np.random.randn(N, T, H) 

a - np.random.randn(N, T) 

ar = a.reshape(N, T, 1).repeat(H, axis-2) 
# ar = a.reshape(N, T, 1) # 使 用 广播 

















t= hs * ar 
print(t.shape) 
# (10, 5, 4) 


c = np.sum(t, axis=1) 
print(c.shape) 
# (10, 4) 
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这 里 的 批 处 理 与 之 前 的 实现 几乎 一 样 。 toe 应 该 很 快 
就 能 确定 repeat() 和 sum() 需要 指定 的 维度 ( 轴 )。 作 为 总 结 ， 我 们 把 加 权 
和 的 计算 用 计算 图 表示 出 来 (图 8-11 )。 




















C (N, H) 


t (N, T,H) 
hs wr, n 
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QT (N, T, H) 


R epeat) 
pY 


a (N, T) 











8-11 加 权 和 的 计算 图 








如 图 8-11 所 示 ， HE Repeat 节点 复制 a。 之 后 ， 通 过 “x” 节 点 





计算 对 应 元 素 的 乘积 ， 通 过 Sum 节点 求 和 。 现 在 考虑 这 个 计算 图 的 反 向 传 
播 。 其 实 ， — a 第 1 章 介 绍 了 Repeat 节点 和 Sum 节 
点 的 反 向 传播 。 这 里 重 述 一 下 要 点 :“Repeat 的 反 向 传播 是 Sum" “Sum 的 








反 向 传播 是 Repeat”。 只 要 注意 到 张 量 的 形状 ， 就 不 难 知道 应 该 对 哪个 轴 进 
fT Sum， 对 哪个 轴 进 行 Repeat. 

现在 我 们 将 图 8-11 的 计算 图 实现 为 层 ， 这 里 称 之 为 Weight Sum 层 ， 
其 实现 如 下 所 示 (e ch08/attention Layer.py )。 








class WeightSum: 
def | init (self): 
self.params, self.grads = [], [] 
self.cache - None 
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def forward(self, hs, a): 
N, T, H = hs.shape 


ar = a.reshape(N, T, 1).repeat(H, axis-2) 
t=hs*ar 


c = np.sum(t, axis=1) 


self.cache = (hs, ar) 
return c 


de 


=h 


backward(self, dc): 
hs, ar = self.cache 
N, T, H = hs.shape 


dt = dc.reshape(N, 1, H).repeat(T, axis-1) # sum 的 反 向 传播 
dar = dt * hs 

dhs = dt * ar 

da = np.sum(dar, axis=2) # repeat 的 反 向 传播 


return dhs, da 








以 上 就 是 计算 上 下 文 向 量 的 Weight Sum 层 的 实现 。 因 为 这 个 层 没有 要 
学 习 的 参数 ， 所 以 根据 本 书 的 代码 规范 ， 此 处 为 self.params = []。 其 他 应 
该 没有 特别 难 的 地 方 ， 我 们 继续 往 下 看 。 








8.1.4 ”解码 器 的 改进 @@ 


有 了 表示 各 个 单词 重要 度 的 权重 a， 就 可 以 通过 加 权 和 获得 上 下 文 向 
。 那 么 ， 怎 么 求 这 个 a 呢 ? 当然 不 需要 我 们 手动 指定 ， 我 们 只 需要 做 好 让 
模型 从 数据 中 自动 学 习 它 的 准备 工作 。 

下 面 我 们 来 看 一 下 各 个 单词 的 权重 a 的 求解 方法 。 首 先 ， 从 编码 器 的 处 
理 开 始 到 解码 器 第 一 个 LSTM 层 输出 隐藏 状态 向 量 的 处 理 为 止 的 流程 如 图 
8-12 所 示 。 
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图 8-12 解码 器 第 1 个 LSTM 层 的 隐藏 状态 向 量 


在 图 8-12 中 ， 用 hh 表示 解码 器 的 LSTM 层 的 隐藏 状态 向 量 。 此 时 ， 我 
们 的 目标 是 用 数值 表示 这 个 h 在 多 大 程度 上 和 hs 的 各 个 单词 向 量 “ 相 似 ”。 
有 几 种 方法 可 以 做 到 这 一 点 ， 这 里 我 们 使 用 最 简单 的 向 量 内 积 。 顺 便 说 一 
TF, HÆ a = (al az -- , an) MEIE b = (b1, 22 ---, bn) 的 内 积 为 : 




















a :三 albl 十 a2b2 +--+ anbn (8.1) 








xX (8.1) 的 含义 是 两 个 向 量 在 多 大 程度 上 指向 同一 方向 ， 因 此 使 用 内 积 
作为 两 个 向 量 的 “相似 度 ” 是 非常 自然 的 选择 。 


计算 向 量 相似 度 的 方法 有 好 几 种 。 除 了 内 积 之 外 ， 还 有 使 用 小 型 的 
神经 网 络 输出 得 分 的 做 法 。 文 献 [49] 中 提出 了 几 种 输出 得 分 的 方法 。 


下 面 用 图 表示 基于 内 积 计 算 向 量 间 相似 度 的 处 理 流程 ( 图 8-13 )。 
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8-13 ”基于 内 积 计 算 hs 的 各 行 与 的 相似 度 ( 


如 图 8-13 所 示 ， 这 里 通过 向 量 内 积 














的 相似 度 ， 并 将 其 结果 表示 为 s。 不 过 ， 





ARA dot 节点 表示 ) 


ih h 和 hs 的 各 个 单词 向 量 之 间 
这 个 s 是 正规 化 之 前 的 值 ， 也 称 为 


得 分 。 接 下 来 ， 使 用 老 一 套 的 Softmax 函数 对 s 进行 正规 化 (图 8-14 )。 


336 | 第 8 章 Attention 



































0.8 
a | Di 0.03 0.05 002 
| Softmax | 
"y 
| | 12 -24 -19 -28 














8-14 基于 Softmax 的 正规 化 


使 用 Softmax 函数 之 后 ， 输 出 的 a 的 各 个 元 素 的 值 在 0.0 ~ 1.0， 总 和 
为 1， 这 样 就 求 得 了 表示 各 个 单词 权重 的 a。 现在 我 们 从 代码 角度 来 看 一 下 
这 些 处 理 。 





import sys 

sys.path.append('..') 

from common.Layers import Softmax 
import numpy as np 


N, T, H = 10, 5, 4 

hs = np.random.randn(N, T, H) 

h = np.random.randn(N, H) 

hr = h.reshape(N, 1, H).repeat(T, axis=1) 
# hr = h.reshape(N, 1, H) # 广播 


t= hs * hr 
print(t.shape) 
# (10, 5, 4) 
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s = np.sum(t, axis-2) 
print(s.shape) 
# (10, 5) 


softmax = Softmax() 

a = softmax.forward(s) 
print(a.shape) 

# (10, 5) 





以 上 就 是 进行 批 处 理 的 代码 。 如 前 所 述 ， 此 处 我 们 通过 reshape() 和 
repeat() 方法 生成 形状 合适 的 hr。 在 使 用 NumPy 的 广播 的 情况 下 ， 不 需要 
repeat()。 此 时 的 计算 图 如 图 8-15 所 示 。 
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图 8-15 计算 各 个 单词 权重 的 计算 图 








如 图 8-15 所 示 ， 这 里 的 计算 图 由 Repeat 节点 、 表 示 对 应 元 素 的 乘积 的 
“x” 节 点 、Sum 节点 和 Softmax 层 构 成 。 我 们 将 这 个 计算 图 表示 的 处 理 实 
现 为 AttentionWeight 类 (= ch08/attention layer.py )。 








import sys 
sys.path.append('..') 
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from common.np import * £ import numpy as np 


from common.layers import Softmax 


class AttentionWeight: 


def 


def 


def 


J. init (self): 

self.params, self.grads = [], [] 
self.softmax = Softmax() 
self.cache - None 


forward(self, hs, h): 
N, T, H = hs.shape 


hr = h.reshape(N, 1, H).repeat(T, axis-1) 
t = hs * hr 
s = np.sum(t, axis-2) 


a self.softmax.forward(s) 
self.cache = (hs, hr) 
return a 


backward(self, da): 
hs, hr = self.cache 
N, T, H = hs.shape 


ds = self.softmax.backward(da) 

dt = ds.reshape(N, T, 1).repeat(H, axis-2) 
dhs = dt * hr 

dhr = dt * hs 

dh = np.sum(dhr, axis-1) 


return dhs, dh 


类 似 于 之 前 的 Weight Sum 层 ， 这 个 实现 有 Repeat 和 Sum 运算 。 只 














要 注意 到 这 两 个 运算 的 反 向 传播 ， 其 他 应 该 就 没有 特别 难 的 地 方 。 下 面 ， 我 
们 进行 解码 器 的 最 后 一 个 改进 。 
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8.1.5 ”解码 器 的 改进 (9) 

在 此 之 前 ， 我 们 分 两 节 介绍 了 解码 器 的 改进 方案 。8.1.3 WA 8.1.4 节 分 
别 实现 了 Weight Sum 层 和 Attention Weight 层 。 现 在 ， 我 们 将 这 两 层 组 
合 起 来 ， 结 果 如 图 8-16 所 示 。 
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8-16 计算 上 下 文 向 量 的 计算 图 


图 8-16 显示 了 用 于 获取 上 下 文 向 量 e 的 计算 图 的 全 貌 。 我 们 已 经 分 为 
Weight Sum 层 和 Attention Weight 层 进行 了 实现 。 重 申 一 下 ， 这 里 进行 的 
计算 是 : Attention Weight 层 关注 编码 絮 输 出 的 各 个 单词 向 量 hs， 并 计算 
各 个 单词 的 权重 a; 然后 ，Weight Sum 层 计算 a 和 Ps 的 加 权 和 ， 并 输出 
上 下 文 向 量 c。 我 们 将 进行 这 一 系列 计算 的 层 称 为 Attention 层 (图 8-17 )。 
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8-17 ”将 左边 的 计算 图 整合 为 Attention Æ 











以 上 就 是 Attention 技术 的 核心 内 容 。 关 注 编码 器 传递 的 信息 hs 中 的 
重要 元 素 ， 基 于 它 算 出 上 下 文 向 量 ， 再 传递 给 上 一 层 ( 这 里 ，Affine 层 在 上 
一 层 等 待 )。 下 面 给 出 Attention 层 的 实现 (= ch68/attention layer.py )。 




















class Attention: 
def init (self): 
self.params, self.grads = [], [] 
self.attention weight layer - AttentionWeight() 
self.weight sum layer - WeightSum() 
self.attention weight - None 


def forward(self, hs, h): 
a = self.attention weight layer.forward(hs, h) 
out = self.weight sum layer.forward(hs, a) 
self.attention weight - a 
return out 


def backward(self, dout): 
dhs0, da = self.weight sum layer.backward(dout) 
dhs1, dh = self.attention weight layer.backward(da) 
dhs = dhs0 + dhs1 
return dhs，dh 
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以 上 是 Weight Sum EFI Attention Weight 层 的 正 向 传播 和 反 向 传播 。 


为 了 以 后 可 以 访问 各 个 单词 的 权重 ， 这 里 设 定 成 员 变量 attention weight, 
个 Attention 层 放 在 LSTM 层 





如 此 就 完成 了 Attention 层 的 实现 。 我 们 将 这 
和 Affine 层 的 中 间 ， 如 图 8-18 所 示 。 
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8-18 BE Attention 层 的 解码 器 的 层 结构 


如 图 8-18 所 示 ， 编 码 器 的 输出 hs 被 输入 到 各 个 时 刻 的 Attention 层 
里 将 LSTM 层 的 隐藏 状态 向 量 输入 Affine 层 。 根 据 上 一 章 的 解码 
展 非 常 自然 。 如 图 8-19 所 示 ， 我 们 将 Attention 





男 外 ， 这 
带 的 改进 ， 可 以 说 这 个 扩 
息 “ 添 加 ”到 了 上 一 章 的 解码 器 上 。 


信息 
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8-19 ”上 一 章 的 解码 器 ( 左 图 ) 和 带 Attention 的 解码 器 ( 右 图 ) 的 比较 : 选 出 从 LSTM 
层 到 Afhne 层 的 部 分 
如 图 8-19 所 示 ， 我 们 向 上 一 章 的 解码 器 “添加 ”基于 Attention 层 
的 上 下 文 向 量 信息 。 因 此 ， 除 了 将 原先 的 LSTM 层 的 隐藏 状态 向 量 传 给 
Affine 层 之 外 ， 追 加 输入 Attention 层 的 上 下 文 向 量 。 














在 图 8-19 中 ， 上 下 文 向 量 和 隐藏 状态 向 量 这 两 个 向 量 被 输入 
Affine 层 。 如 前 所 述 ， 这 意味 着 将 这 两 个 向 量 拼接 起 来 ， 将 拼接 
后 的 向 量 输入 Affine 层 。 




















最 后 ， 我 们 将 在 图 8-18 的 时 序 方向 上 扩展 的 多 个 Attention 层 整 体 实 
现 为 Time Attention J£, WKI 8-20 所 示 。 
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8-20 将 多 个 Attention 层 整体 实现 为 Time Attention Æ 
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由 图 8-20 可 知 ，Time Attention 层 只 是 组 合 了 多 个 Attention 层 ， 其 
实现 如 下 所 示 (e ch08/attention layer.py )。 





class TimeAttention: 
def init (self): 
self.params, self.grads = [], [] 
self.layers - None 
self.attention weights - None 


def forward(self, hs enc, hs dec): 
N, T, H = hs dec.shape 
out - np.empty like(hs dec) 
self.layers - [] 
self.attention weights - [] 


for t in range(T): 
layer = Attention() 
out[:, t, :] = layer.forward(hs enc, hs dec[:,t,:]) 
self.layers.append(layer) 
self.attention weights.append(layer.attention weight) 


return out 


def backward(self, dout): 
N, T, H = dout.shape 
0 
dhs dec = np.empty like(dout) 


dhs enc 


for t in range(T): 
layer = self.layers[t] 
dhs, dh = layer.backward(dout[:, t, :]) 
dhs enc += dhs 
dhs dec[:,t,:] = dh 


return dhs enc, dhs dec 


这 里 仅 创建 必要 数量 的 Attention 层 ( 代码 中 为 T 个 ) 各 自 进行 正 向 
传播 和 反 向 传播 。 另 外 ，attention_weights 列表 中 保存 了 各 个 Attention 层 
对 各 个 单词 的 权重 。 
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以 上 ， 我 们 介绍 了 Attention 的 结构 及 其 实现 。 下 面 我 们 使 用 Attention 
来 实现 seq2seq， 并 尝试 挑战 一 个 真实 问题 ， 以 确认 Attention 的 效果 。 














8.2” 带 Attention 的 seq2seq 的 实现 


上 一 节 实 现 了 Attention JE (以 及 Time Attention 层 )， 现 在 我 们 使 用 
这 个 层 来 实现 “ 带 Attention 的 seq2sedq”。 和 上 一 章 实现 了 3 个 类 (Encoder, 
Decoder 和 seq2seq ) 一 样 ， 这 里 我 们 也 分 别 实 现 3 个 类 ( AttentionEncoder、 


AttentionDecoder 和 AttentionSeq2seq )。 


8.2.1 编码 器 的 实现 


首先 实现 AttentionEncoder 类 。 这 个 类 和 上 一 章 实现 的 Encoder 类 几乎 
一 样 ， 唯 一 的 区 别 是 ，Encoder 类 的 forward() 方法 仅 返 回 LSTM 层 的 最 后 
的 隐藏 状态 向 量 ， 而 AttentionEncoder 类 则 返回 所 有 的 隐藏 状态 向 量 。 因 此 ， 
这 里 我 们 继承 上 一 章 的 Encoder 类 进行 实现 。AttentionEncoder 类 的 实现 如 
下 所 示 (= ch98/attention seq2seq.py )。 








import sys 

sys.path.append('..') 

from common.time layers import * 

from ch07.seq2seq import Encoder, Seq2seq 

from ch08.attention layer import TimeAttention 


class AttentionEncoder(Encoder) 
def forward(self, xs): 
XS = self.embed.forward(xs) 
hs = self.lstm.forward(xs) 
return hs 


def backward(self, dhs): 
dout = self.lstm.backward(dhs) 
dout = self.embed.backward(dout) 
return dout 
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8.02.0» ”解码 器 的 实现 
接着 实现 使 用 了 Attention 层 的 解码 器 。 使 用 了 Attention 的 解码 器 的 
层 结构 如 图 8-21 所 示 。 
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8-21 解码 器 的 层 结构 


从 图 8-21 中 可 以 看 出 ， 和 上 一 章 的 实现 一 样 ，Softmax 层 ( 更 确切 地 
W, Æ Time Softmax with Loss 层 ) By AME. y. ME 
一 章 一 样 ， 除 了 正 向 传播 forward() 方法 和 反 向 出 传播 backward() 方法 之 
外 ,还 实现 了 生成 新 单词 序列 (字符 序列 ) 的 generate) 方法 。 这 里 仅 给 
出 Attention Decoder 层 的 初始 化 方法 和 forward() 方法 的 实现 ， 如 下 所 示 


(= ch08/attention seq2seq.py )。 
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class AttentionDecoder: 


def 


def 


def 


def 


. init (self, vocab size, wordvec size, hidden size): 
V, D, H = vocab size, wordvec size, hidden size 
rn = np.random.randn 


embed W = (rn(V, D) / 100).astype('f') 

lstm Wx = (rn(D, 4 * H) / np.sqrt(D)).astype('f') 

lstm Wh = (rn(H, 4 * H) / np.sqrt(H)).astype('f') 
p 


lstm b = np.zeros(4 * H).astype('f') 
affine W = (rn(2*H, V) / np.sqrt(2*H)).astype('f') 
affine b = np.zeros(V).astype('f') 


self.embed - TimeEmbedding(embed W) 

self.lstm = TimeLSTM(lstm Wx, lstm Wh, lstm b, stateful-True) 
self.attention - TimeAttention() 

self.affine - TimeAffine(affine W, affine b) 


layers = [self.embed, self.lstm, self.attention, self.affine] 


self.params, self.grads - [], [] 
for layer in layers: 
self.params += layer.params 
self.grads += layer.grads 


forward(self, xs, enc hs): 
h = enc hs[:,-1] 
self.lstm.set state(h) 


out = self.embed.forward(xs) 

dec hs = self.lstm.forward(out) 

c = self.attention.forward(enc hs, dec hs) 
out = np.concatenate((c, dec hs), axis-2) 
score = self.affine.forward(out) 


return score 


backward(self, dscore): 
# 参照 源 代码 


generate(self, enc hs, start id, sample size): 
# 参照 源 代码 
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这 里 的 实现 除 使 用 了 新 的 "Time. Attention 层 之 外 ， 和 上 一 章 的 Decoder 类 
没有 什么 太 大 的 不 同 。 需 要 注意 的 是 ，forward() 方法 中 拼接 了 Time Attention 























层 的 输出 和 LSTM zn dis dE ET 








i 的 代码 中 ， 使 用 np.concatenate() 方 











法 进行 拼接 。 


这 里 省 略 对 AttentionDecoder 类 的 backward() 和 generate() 方 法 的 
说 明 。 最 后 ， 我 们 使 用 AttentionEncoder 类 和 AttentionDecoder 类 来 实现 





AttentionSeq2seq 类 。 


8.2.3 ”seq2sedq 的 实现 


AttentionSeq2seq 类 的 实现 也 和 上 一 章 实现 的 seq2seq 几乎 一 样 。 区 别 
仅 在 于 ， 编 码 器 使 用 AttentionEncoder 类， 解码 器 使 用 AttentionDecoder 类 。 


因此 ， 只 要 继承 上 一 章 的 Seq2seq 类 





， 并 改 一 下 初始 化 方法 ， 就 可 以 实现 





AttentionSeq2seq 类 ( = ch08/attention seq2seq.py )。 


from ch07.seq2seq import Encoder, Seq2seq 


class AttentionSeq2seq(Seq2seq): 


def | init (self, vocab size, 


wordvec size, hidden size): 


args - vocab size, wordvec size, hidden size 
self.encoder - AttentionEncoder(*args) 
self.decoder - AttentionDecoder(*args) 
self.softmax = TimeSoftmaxWithLoss() 


self.params = self.encoder.params + self.decoder.params 
self.grads = self.encoder.grads + self.decoder.grads 











以 上 就 是 带 Attention 的 seq2seq 的 实现 。 


8.3 Attention 的 评价 





下 面 ， 我 们 使 用 上 一 节 实现 的 Attentionseq2seq 类 来 挑战 一 个 实际 问题 。 
原本 我 们 应 该 通过 研究 翻译 问题 来 确认 Attention 的 效果 ， 可 惜 没 能 找到 大 
小 适中 的 翻译 数据 集 。 因 此 ， 我 们 转 而 通过 研究 “日 期 格式 转换 ”问题 (本 
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质 上 属于 人 为 创造 的 问题 ， 数 据 量 有 限 )， 来 确认 带 Attention 的 seq2seq 
的 效果 。 


WMT 是 一 个 有 名 的 翻译 数据 集 。 这 个 数据 集中 提供 了 英语 和 法 语 (或 
者 英语 和 德语 ) 的 平行 学 习 数 据 。WMT 数 据 集 在 许多 研究 中 都 被 作 


为 基准 使 用 , 经 常用 于 评价 seq2seq 的 性 能 , 不 过 它 的 数据 量 很 大 ( 超 
过 20 GB )， 使 用 起 来 不 是 很 方便 。 



























































































































































8.3.1 日 期 格式 转换 问题 

这 里 我 们 要 处 理 的 是 日 期 格式 转换 问题 。 这 个 任务 则 在 将 使 用 英语 的 
家 和 地 区 所 使 用 的 各 种 各 样 的 日 期 格式 转换 为 标准 格式 。 例 如 ,将 人 写 的 
"september 27, 1994” 这 样 的 日 期 数据 转换 为 “1994-09-27” 这 样 的 标准 格 
式 ， 如 图 8-22 所 示 。 














H 




















september 27, 1994 “一 1994-09-27 


JUN 17, 2013 — ——» 2013-06-17 








2/10/93 — —» 1993-02-10 
8-22 日 期 格式 转换 的 例子 





这 里 采用 日 期 格式 转换 问题 的 原因 有 两 个 。 首 先 ， 该 问题 并 不 像 看 上 去 
那么 简单 。 因 为 输入 的 日 期 数据 存在 各 种 各 样 的 版 本 ， 所 以 转换 规则 也 相应 
地 复杂 。 如 果 尝 试 将 这 些 转换 规则 全 部 写 出 来 ， 那 将 非常 费力 。 























体 而 言 ， 存 在 年 月 日 的 对 应 关系 。 因 此 ， 我 们 可 以 确认 Attention 有 没有 正 
确 地 关注 各 自 的 对 应 元 素 。 

我 们 事先 在 dataset/date. txt 中 准备 好 了 要 处 理 的 日 期 转换 数据 。 如 图 
8-23 所 示 ， 这 个 文本 文件 包含 50 000 个 日 期 转换 用 的 学 习 数 据 。 
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1 september 27, 1994 -1994-09-27 
2 August 19, 2003 2003-08-19 
3 2/10/93 -1993-02-10 
4 10/31/90 1990-10-31 
5 TUESDAY, SEPTEMBER 25, 1984 _1984-09-25 
6 JUN 17, 2013 -2013-06-17 
7 april 3, 1996 -1996-04-03 
8 October 24, 1974 -1974-10-24 
9 AUGUST 11, 1986 1986-08-11 
10 February 16, 2015 -2015-02-16 
11 October 12, 1988 -1988-10-12 
12 6/3/73 -1973-06-03 
13 Sep 30, 1981 1981-09-30 
14 June 19, 1977 1977-06-19 
15 OCTOBER 22, 2005 -2005-10-22 
Lines: 50,000 Chars: 2,050,000 2.05 MB 











图 8-23 用 于 日 期 格式 转换 的 学 习 数 据 : 空格 显示 为 灰 点 

















为 了 对 齐 输入 语句 的 长 度 ， 本 书 提供 的 日 期 数据 集 填 充 了 空格 ， 并 将 
“_”( 下 划 线 ) 设置 为 输入 和 输出 的 分 隔 符 。 另 外 ， 因 为 这 个 问题 输出 的 字 
符 数 是 恒定 的 ， 所 以 无 须 使 用 分 隔 符 来 指示 输出 的 结束 。 





























如 上 一 章 所 述 ， 本 书 提供 了 一 个 可 以 轻松 处 理 上 述 seq2seq 用 的 学 
习 数 据 的 Python 模块 ， 这 个 模块 位 于 dataset/sequence.py 中 。 


























aL Et 


8.32 Attention BS seq2seq895€2J 


下 面 ， 我 们 在 日 期 转换 用 的 数据 集 上 进行 Attentionseq2seq 的 学 习 ， 学 
习 用 的 代码 如 下 所 示 (= ch08/train.py )。 














import sys 

sys.path.append('..') 

import numpy as np 

from dataset import sequence 

from common .optimizer import Adam 
from common.trainer import Trainer 
from common.util import eval_seq2seq 
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from attention seq2seq import AttentionSeq2seq 
from ch07.seq2seq import Seq2seq 
from ch07.peeky seq2seq import PeekySeq2seq 


3 读 人 数据 
(x train, t train), (x test, t test) = sequence.load data('date.txt') 
char to id, id to char = sequence.get vocab() 


3 反 转 输入 语句 
x train, x test = x train[:, ::-1], x test[:, ::-1] 


# 设 定 超 参数 

vocab size = len(char to id) 
wordvec size - 16 

hidden size - 256 

batch size - 128 

max epoch - 10 

max grad = 5.0 


model = AttentionSeq2seq(vocab size, wordvec size, hidden size) 
optimizer - Adam() 
trainer - Trainer(model, optimizer) 


acc list - [] 
for epoch in range(max epoch): 
trainer.fit(x train, t train, max epoch-1, 
batch size-batch size, max grad-max grad) 


correct num = 0 
for i in range(len(x test)): 
question, correct = x test[[i]], t test[[ill 
verbose - i « 10 
correct num += eval seg2seq(model, question, correct, 
id to char, verbose, is reverse-True) 


acc = float(correct num) / len(x test) 


acc list.append(acc) 
print('val acc %.3f%%' % (acc * 100)) 


model.save params() 
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这 里 显示 的 代码 和 上 一 章 的 加 法 问题 的 学 习 用 代码 几乎 一 样 。 区 别 在 
于 ， 它 读 入 日 期 数据 作为 学 习 数 据 ， 使 用 Attentionseq2seq 作为 模型 。 另 外 ， 



































这 里 还 使 用 了 反 转 输入 语句 的 技巧 ( Reverse )。 之 后 ， 在 学 习 的 同时 ， 每 个 














epoch 使 用 测试 数据 计算 正确 率 。 为 了 查看 结果 ， 























句 和 回答 输出 到 终端 





我 们 将 前 10 个 问题 的 问 


现在 我 们 运行 一 下 上 面 的 代码 。 随 着 学 习 的 进行 ， 结 果 如 图 8-24 所 示 。 




















ch08 — python tr 


Q Mar 25, 2003 
T 2003-03-25 
1999-05-11 


Q Tuesday, November 22, 2016 
T 2016-11-22 
1999-05-11 


Q Saturday, July 18, 1970 --- 
T 1970-07-18 Q Tuesday, November 22, 2016 
11-22 


1999-05-11 Q Mar 25, 2003 


T 2003-03-25 
z 2003-03-25 


Q october 6, 1992 ~ 
T 1992-10-06 Q Saturday, July 18, 1970 
1999-05-11 T 1970-07-18 


UE UR T 2016-11-22 
Hen 2016-11-22 
Q october 6，1992 
T 1992-10-06 


1992-10-06 T 1970-07-18 


au m 1970-07-18 
Q 8/23/08 aS 
T 2008-08-23 
m 2008-08-23 


Q october 6, 1992 

T 1992-10-06 
1992-10-06 

Q 8/23/68 

T 2008-08-23 

z 2008-08-23 








ch08 — python train_seq2seq.py — 64x21 


Q Tuesday, November 22, 2016 


Q Saturday, July 18, 1970 








图 8-24 显示 在 终端 上 的 结果 的 演变 


如 图 8-24 所 示 ， 随 着 学 习 的 深入 ， 带 Attention 的 seq2seq 变 聪 明了 。 











实际 上 ， 没 过 多 久 ， 它 就 对 大 多 数 问题 给 出 了 IE 硬 





正确 率 (代码 中 的 acc_list ) 如 图 8-25 所 示 。 





= 








答案 。 此 时 ， 测 试 数据 的 
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8-25 ”正确 率 的 演变 


如 图 8-25 所 示 ， 从 第 1 个 epoch 开始， 正确 率 迅 速 上 升 ， 到 第 2 个 
epoch 时 ， 几 乎 可 以 正确 回答 所 有 问题 。 这 可 以 说 是 一 个 很 好 的 结果 。 我 们 
将 这 个 结果 与 上 一 章 的 模型 比较 一 下 ， 如 图 8-26 所 示 。 
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8-26 ”与 其 他 模型 的 比较 : 图 中 的 baseline 是 上 一 章 中 的 简单 的 seq2seq，peeky 是 
使 用 “ 偷 宇 ”技术 改进 过 的 seq2seq( 所 有 的 模型 都 反 转 了 输入 语句 ) 


从 图 8-26 的 结果 可 知 ， 简 单 的 seq2seq ( 图 中 的 baseline ) 完全 没 法 用 。 
即使 经 过 了 10 个 epoch， 大 多 数 问题 还 是 不 能 回答 正确 。 而 使 用 了 “ 偷 笑 ” 
技术 的 Peeky 给 出 了 良好 的 结果 ， 从 第 3 个 epoch 开始 ， 模 型 的 正确 率 开 
始 上 升 ,在 第 4 个 epoch 时 ， 正 确 率 达 到 了 100%, 1, WEIEREN A , 
Attention 稍微 有 些 优势 。 

在 这 次 的 实验 中 ， 就 最 终 精 度 来 看 ，Attention 和 Peeky 取得 了 差 
不 多 的 结果 。 但 是 ， 随 着 时 序数 据 变 长 、 变 复杂 ， 除 了 学 习 速 度 之 外 ， 
Attention 在 精度 上 也 会 变 得 更 有 优势 。 























8.3.3 Attention 的 可 视 化 

接 下 来 ， 我们 对 Attention 进行 可 视 化。 在 进行 时 序 转换 时 ， 实 际 观察 
Attention 在 注意 哪个 元 素 。 因 为 在 Attention 层 中 ， 各 个 时 刻 的 Attention 
权重 均 保 存 到 了 成 员 变 量 中 ， 所 以 我 们 可 以 轻松 地 进行 可 视 化 。 
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E 


在 我 们 的 实现 中 ，Time Attention 层 中 的 成 员 变量 attention weights 保 
存 了 各 个 时 刻 的 Attention 权重 ， 据 此 可 以 将 输入 语句 和 输出 语句 的 各 个 单词 
的 对 应 关系 绘制 成 一 张 二 维 地 图 。 这 里 ， 我 们 针对 学 习 好 的 AttentionSeq2seq， 
对 进行 日 期 格式 转换 时 的 Attention 权重 进行 可 视 化 。 此 处 ,我 们 不 给 出 代码 ， 


仅 将 结果 显示 在 图 8-27 上 (= ch08/visualize attention.py )。 


















































FRIDAY, AUGUST 26, 1983 











图 8-27 使 用 学 习 好 的 模型 ， 对 进行 时 序 转换 时 的 Attention 权重 进行 可 视 化 。 横 轴 是 
模型 的 输入 语句 ， 纵 轴 是 模型 的 输出 语句 。 地 图 中 的 元 素 越 接近 白色 ， 其 值 越 大 
(接近 1) 
图 8-27 是 seq2seq 进行 时 序 转换 时 的 Attention 权重 的 可 视 化 结果 。 例 
如 ， 我 们 可 以 看 到 ， 当 seq2seq 输出 第 1 个 “1” 时 ， 注 意 力 集中 在 输入 语句 
的 “1” 上 。 这 里 需要 特别 注意 年 月 日 的 对 应 关系 。 仔 细 观 察 图 中 的 结果 ， 纵 
(输出 ) 的 “1983” 和 “26” 恰 好 对 应 于 横 轴 《输入 ) 的 “1983” 和 “26”。 
另外 ， 输 入 语句 的 “AUGUST” 对 应 于 表示 月 份 的 “08"， 这 一 点 也 很 令 人 惊 
讶 。 这 表明 seq2seq 从 数据 中 学 习 到 了 “August” 和 “8 月 ”的 对 应 关系 。 图 
8-28 中 给 出 了 其 他 一 些 例 子 ， 从 中 也 可 以 很 清楚 地 看 到 年 月 日 的 对 应 关系 。 
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8-28 Attention 权重 的 例子 





像 这 样 ， 使 用 Attention, seq2seq 能 像 我 们 人 一 样 将 注意 力 集中 在 必 
要 的 信息 上 。 换 言 之 ,借助 Attention， 我 们 理解 了 模型 是 如 何 工作 的 。 















































我 们 没有 办 法 理解 神经 网 络 内 部 进行 了 什么 工作 (基于 何 种 逻辑 工作 )， 
而 Attention 赋予 了 模型 “人 类 可 以 理解 的 结构 和 意义 " 。 在 上 面 的 
VEA 


A. 












































EB 


例子 中 , 通过 Attention ,我们 看 到 了 单词 和 单词 之 间 的 关联 性 。 由 此 ， 
我 们 可 以 判断 模型 的 工作 逻辑 是 否 符 合 人 类 的 逻辑 。 













































































以 上 就 是 关于 Attention 的 评价 的 内 容 。 通 过 这 里 的 实验 ， 我 们 体验 了 
Attention 的 奇妙 效果 。 至 此 ，Attention 的 核心 话题 就 要 告 一 段落 了 ,但 
是 关于 Attention 的 其 他 内 容 还 有 不 少 。 下 一 节 我 们 继续 围绕 Attention, 
介绍 它 的 几 个 高 级 技巧 。 
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8.4 XT Attention 的 其 他 话题 





到 目前 为 止 ， 我 们 研究 了 Attention ( 正确 地 说 ， 是 带 Attention 的 
seq2seq )， 本 节 我 们 介绍 几 个 之 前 未 涉及 的 话题 。 


8.4.1 双向 RNN 
这 里 我 们 关注 seq2seq 的 编码 器 。 首 先 复习 一 下 ， 上 一 节 之 前 的 编码 器 
如 图 8-29 所 示 。 




















Hy 
| LSTM | | LSTM | LSTM LSTM LSTM 
d 
Embedding Embedding Embedding Embedding Embedding 
uE TN 
ux [Es 18 © 55 














8-29 基于 LSTIM 层 输出 Ps 


如 图 8-29 所 示 ，LSTM 中 各 个 时 刻 的 隐藏 状态 向 量 被 整合 为 hs。 这 里 ， 
编码 器 输出 的 hs 的 各 行 中 含有 许多 对 应 单词 的 成 分 。 
需要 注意 的 是 ,我们 是 从 左 向 右 阅读 句子 的 。 因 此 ， 在 图 8-29, 单 
i "JH" Bep EA p AE "QE" "AMO xt 3 个 单词 的 信息 。 如 果 考 














8. 
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虑 整体 的 平衡 性 ， 我 们 希望 向 量 能 更 均衡 地 包含 单词 “ 猫 ” 周 围 的 信息 。 





在 这 次 的 翻译 问题 中 ， 我 们 获得 了 所 有 














的 时 序数 据 ( 需 要 翻译 的 














文本 )。 因 


读 取 文本 。 











Ba 


此 ， 我 们 既 可 以 从 左 向 右 读 取 文 本 ， 也 可 以 从 右 向 左 


为 此 ， 可 以 让 LSTM 从 两 个 方向 进行 处 理 ， 这 就 是 名 为 双向 LSTM 的 


技术 ， 如 图 8-30 所 示 。 
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| LSTM | | LSTM 4 | | LSTM ISTM | LSTM | 
a | x | x | x | 4 
LSTM | LSTM >| ISTM LSTM LSTM 
X k X X 
Embedding | Embedding | Embedding Embedding Embedding 
| | | 
za id: 3s T 5% 

















8-30 ”基于 双向 LSTIM 进 行 编码 的 例子 (这 里 简化 了 LSTM 层 ) 


如 图 





处 理 的 LSTM 层 。 然 后 ， 拼 接 各 个 时 


8-30 所 示 ， 双 向 LSTM 在 之 前 的 LSTM 层 上 添加 了 一 个 反方 向 


刻 的 两 个 LSTM 层 的 隐藏 状态 ， 将 


其 作为 最 后 的 隐藏 状态 向 量 ( 除了 拼接 之 外 ， 也 可 以 “ 求 和 ”或 者 “ 取 平 


均 ” 等 )。 





通过 这 样 的 双向 处 理 ， 各 个 单词 对 














应 的 隐藏 状态 向 量 可 以 从 左右 两 个 方 


向 聚集 信息 。 这 样 一 来 ， 这 些 向 量 就 编码 了 更 均衡 的 信息 。 
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双向 LSTM 的 实现 非常 简单 。 一 种 实现 方式 是 准备 两 个 LSTM 层 (本 
章 中 是 Time LSTM 层 )， 并 调整 输入 各 个 层 的 单词 的 排列 。 具 体 而 言 ， 其 
中 一 个 层 的 输入 语句 与 之 前 相同 ， 这 相当 于 从 左 向 右 处 理 输入 语句 的 常规 的 
LSTM 层 。 而 另 一 个 LSTM 层 的 输入 语句 则 按照 从 右 到 左 的 顺序 输入 。 如 
果 原 文 是 “A BCD’, MUAH “D C B A”。 通 过 输入 改变 了 顺序 的 输入 
语句 ， 另 一 个 LSTM 层 从 右 向 左 处 理 输入 语句 。 之 后 ， 只 需要 拼接 这 两 个 
LSTM 层 的 输出 ， 就 可 以 创建 双向 LSTM 层 。 


为 了 便于 理解 ， 本 章 使 用 了 单 向 LSTM 作为 编码 器 。 不 过 ， 显 然 也 
可 以 将 此 处 介绍 的 双向 LSTM 用 作 编 码 器 。 感 兴趣 的 读者 可 以 尝 


试 实现 使 用 双向 LSTM 的 带 Attention 的 seq2seq。 另 外 ，common/ 
time_layers.py 的 TimeBiLSTM 类 中 有 双向 LSTM 的 实现 ， 感 兴趣 的 
读者 可 以 参考 一 下 。 


























































































































8.4.2 ”Attention 层 的 使 用 方法 


接 下 来 ,我 们 思考 Attention 层 的 使 用 方法 。 截 止 到 目前 ， 我 们 使 用 的 
Attention 层 的 层 结构 如 图 8-31 所 示 。 
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8-31 上 一 节 之 前 使 用 的 带 Attention 的 seq2seq 的 层 结构 


如 图 8-31 所 示 ， 我 们 将 Attention 层 插入 了 LSTM 层 和 Affine 层 之 间 ， 
不 过 使 用 Attention 层 的 方式 并 不 一 定 非 得 像 图 8-31 那样 。 实 际 上 ， 使 用 


Attention 的 模型 还 有 其 他 好 几 种 方式 。 比 如 ,文献 [48] 中 以 图 8-32 的 结构 
使 用 了 Attention。 
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8-32 Attention 层 的 其 他 使 用 示例 (这 里 参考 了 文献 [48] ， 并 简化 了 网 络 结构 ) 


在 图 8-32 P, Attention 层 的 输出 (上下文 向 量 ) 被 连接 到 了 下 一 时 刻 
的 LSTM 层 的 输入 处 。 通 过 这 种 结构 ，LSTM 层 得 以 使 用 上 下 文 向 量 的 信 
息 。 相 对 地 ， 我 们 实现 的 模型 则 是 Affine 层 使 用 了 上 下 文 向 量 。 

IPA, Attention 层 的 位 置 的 不 同 对 最 终 精 度 有 何 影响 呢 ? 答案 要 试 一 
下 才 知 道 。 实 际 上 ， 这 只 能 使 用 真实 数据 来 验证 。 不 过 ， 在 上 面 的 两 个 模型 
中 ， 上 下 文 向 量 都 得 到 了 很 好 的 应 用 。 因 此 ， 在 这 两 个 模型 之 间 ， 我 们 可 能 
看 不 到 太 大 的 精度 差异 。 

从 实现 的 角度 来 看 ， 前 者 的 结构 ( 在 LSTM 层 和 Affine 层 之 间 插 入 
Attention 层 ) 更 加 简单 。 这 是 因为 在 前 者 的 结构 中 ， 解 码 器 中 的 数据 是 从 
下 往 上 单 向 流动 的 ， 所 以 Attention 层 的 模块 化 会 更 加 简单 。 实 际 上 ， 我们 
轻松 地 将 其 模块 化 为 了 Time Attention 层 。 












































8.4.3 ”seq2sedq 的 深层 化 和 skip connection 
在 诸如 翻译 这 样 的 实际 应 用 中 ， 需 要 解决 的 问题 更 加 复杂 。 在 这 种 情 
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况 下 ， 我 们 希望 带 Attention 的 seq2seq 具有 更 强 的 表现 力 。 此 时 ， 首 先 
可 以 考虑 到 的 是 加 深 RNN 层 (LSTM 层 )。 通 过 加 深层 ， 可 以 创建 表现 力 
更 强 的 模型 ， 带 Attention 的 seq2seq 也 是 如 此 。 那 么 ， 如 果 我 们 加 深 带 
Attention 的 seq2seq， 结 果 会 怎样 呢 ?” 图 8-33 给 出 了 一 个 例子 。 
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在 图 8-33 的 模型 中 ， 编 码 器 和 解码 器 使 用 了 35 LSTM 层 。 如 本 例 所 
示 ， 编 码 器 和 解码 器 中 通常 使 用 层 数 相同 的 LSTM 层 。 另 外 ，Attention 层 
的 使 用 方法 有 许多 变 体 。 这 里 将 解码 器 LSTM 层 的 隐藏 状态 输入 Attention 
层 ， 然 后 将 上 下 文 向 量 (Attention 层 的 输出 ) 传 给 解码 器 的 多 个 层 ( LSTM 
EU Affine 层 )。 



























































图 8-33 的 模型 只 是 一 个 例子 。 除 了 这 个 例子 之 外 ,还 有 很 多 方式 ， 
比如 使 用 多 个 Attention 层 ,或 者 将 Attention 的 输出 输入 给 下 
一 个 时 刻 的 LSTM 层 等 。 另外， 如 上 一 章 所 述 ， 在 加 深层 时 ， 避 
免 泛 化 性 能 的 下 降 非 常 重 要 。 此 时 ，Dropout、 权 重 共享 等 技术 
可 以 发 挥 作用 。 














































































































另外 ， 在 加 深层 时 使 用 到 的 另 一 个 重要 技巧 是 残 差 连接 (skip connection, 
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也 称 为 residual connection 或 shortcut )。 如 图 8-34 所 示 ， 这 是 一 种 “路 层 
连接 ”的 简单 技巧 。 

















8-34 LSTM 层 中 的 skip connection 的 例子 


如 图 8-34 所 示 ， 所 谓 残 差 连接 ， 就 是 指 “ 路 层 连接 "。 此 时 ， 在 残 差 连 
接 的 连接 处 ， 有 两 个 输出 被 相 加 。 请 注意 这 个 加 法 〈 确切 地 说 ， 是 对 应 元 素 
的 加 法 ) 非常 重要 。 因 为 加 法 在 反 向 传播 时 “ 按 原样 ”传播 梯度 ， 所 以 残 差 

连接 中 的 梯度 可 以 不 受 任何 影响 地 传播 到 前 一 个 层 。 这 样 一 来 ， 即 便 加 深 了 
层 ， 梯 度 也 能 正常 传播 ， 而 不 会 发 生 梯 度 消失 (或 者 梯度 爆炸 )， 学 习 可 以 
顺利 进行 。 


在 时 间 方 向 上 ，RNN 层 的 反 向 传播 会 出 现 梯度 消失 或 梯度 爆炸 的 问 
题 。 梯 度 消失 可 以 通过 LSTM、GRU 等 Gated RNN 应 对 ， 梯 度 爆 


炸 可 以 通过 梯度 裁剪 应 对 。 而 对 于 深度 方向 上 的 梯度 消失 ， 这 里 介 
绍 的 残 差 连接 很 有 效 。 
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8.5 Attention 的 应 用 


到 目前 为 止 ， 我 们 仅 将 Attention 应 用 在 了 seq2seq 上 ， 但 是 Attention 
这 一 想法 本 身 是 通用 的 ， 在 应 用 上 还 有 更 多 的 可 能 性 。 实 际 上 ， 在 近 些 年 
的 深度 学 习 研 究 中 ， 作 为 一 种 重要 技巧 ，Attention 出 现在 了 各 种 各 样 的 场 
景 中 。 本 节 我 们 将 介绍 3 个 使 用 了 Attention 的 前 沿 研究 ， 以 使 读者 感受 到 
Attention 的 重要 性 和 可 能 






































8.5.1 GNMT 


回 看 机 器 翻译 的 历史 ， 我 们 可 以 发 现 主 流 方 法 随 着 时 代 的 变迁 而 演变 
具体 来 说 ， 就 是 从 “基于 规则 的 翻译 ”到 “基于 用 例 的 翻译 "， 再 到 “基于 
统计 的 翻译 "。 现 在 ， 神 经 机 需 翻 译 (Neural Machine Translation ) 取代 
了 这 些 过 往 的 技术 ， 获 得 了 广泛 关注 。 


神经 机 器 翻译 这 个 术语 是 出 于 与 之 前 的 基于 统计 的 翻译 进行 对 比 而 
ERAS, W7 BR 3 了 seq2seq 的 机 器 翻译 的 统称 。 


从 2016 年 开始 ， 和 谷歌 翻 译 就 开始 将 神经 机 器 翻译 用 于 实际 的 服务 ， 其 
机 器 翻译 系统 称 为 GNMT (Google Neural Machine Translation， 谷 歌 神 
经 机 器 翻译 系统 )。 关 于 GNMT 的 技术 细节 ， 文 献 [50] 中 有 具体 介绍 。 
里 ,我 们 以 层 结构 为 中 心 来 看 一 下 GNMT 的 架构 ， 如 图 8-35 所 示 。 
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8-35 _ GNMT 的 层 结 构 ( 引 自 文献 [50] ) (参见 彩 图 ) 


GNMT 和 本 章 实 现 的 带 Attention 的 seq2seq 一 样 ， 由 编码 器 、 解 码 
器 和 Attention 构成 。 不 过 ， 与 我 们 的 简单 模型 不 同 ， 这 里 可 以 看 到 许多 为 
了 提高 翻译 精度 而 做 的 改进 ， 比 如 LSTM 层 的 多 层 化 、 双 向 LSTM ( 仅 编 
人 码 右 的 第 1 层 ) M skip connection 等 。 另 外 ， 为 了 提高 学 习 速 度 ， 还 进行 
了 多 个 GPU 上 的 分 布 式 学 习 。 

除了 上 述 在 架构 上 下 的 功夫 之 外 ，GNMT 还 进行 了 低频 词 处 理 、 用 于 
加 速 推理 的 量化 ( quantization ) 等 工作 。 利 用 这 些 技 巧 ，GNMT 获得 了 非 
常 好 的 结果 ， 实 际 报告 出 来 的 结果 如 图 8-36 所 示 。 
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8-36 GNMT 的 精度 评价 : 纵 轴 是 人 按照 0~6 对 翻译 质量 进行 的 评价 ( 引 自 文献 [51]) 
(参见 彩 图 ) 





如 图 8-36 所 示 ， 与 基于 短语 的 机 带 翻 译 ( 基于 统计 的 机 天 翻译 的 一 种 ) 
这 种 传统 方法 相 比 ，GNMT 成 功 地 提高 了 翻译 精度 ， 其 精度 进一步 接近 了 
人 工 翻译 的 精度 。 像 这 样 ，GNMT 给 出 了 出 色 的 结果 ， 充 分 展示 了 神经 翻 
译 的 实用 性 和 可 能 性 。 不 过 ， 但 凡 用 过 谷歌 翻译 的 人 都 知道 ， 它 仍 存在 许多 
不 自然 的 翻译 以 及 人 绝对 不 会 犯 的 错误 。 机 器 翻译 的 研究 仍 在 继续 。 实 际 
上 ，GNMT 只 是 一 个 开始 ， 目 前 围绕 神经 翻译 的 研究 非常 活跃 。 






































实现 GNMT 需要 大 量 的 数据 和 计算 资源 。 根 据 文献 [50]，GNMT 
使 用 了 大 量 的 训练 数据 ,(1 个 模型 ) 在 将 近 100 个 GPU 上 学 习 了 6 天 。 
另外 ，GNMT 也 在 设法 基于 可 以 并 行 学 习 8 个 模型 的 集成 学 习 和 强 
化 学 习 等 技术 进一步 提高 精度 。 虽 然 这 些 事情 不 是 一 个 人 可 以 完成 的 ， 
但 是 我 们 已 经 学 习 了 需要 用 到 的 技术 的 核心 部 分 。 
































































































































8.5.2 Transformer 

到 目前 为 止 ， 我 们 在 各 种 地 方 使 用 了 RNN (LSTM )。 从 语言 模型 到 
文本 生成 ， 从 seq2se 到 带 Attention 的 seq2seq 及 其 组 成 部 分 ，RNN 都 会 
出 现 。 使 用 RNN 可 以 很 好 地 处 理 可 变 长 度 的 时 序数 据 ，( 在 大 多 数 情况 下 ) 
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能 够 获得 良好 的 结果 。 但 是 ，RNN 也 有 缺点 ， 比 如 并 行 处 理 的 问题 。 














RNN 需要 基于 上 一 个 时 刻 的 计算 结果 逐步 进行 计算 ， 因 此 ( 基本 ) 不 











可 能 在 时 间 方 向 上 并 行 计算 RNN。 在 使 用 了 GPU 的 并 行 计算 环境 下 进行 深 
度 学 习 时 ， 这 一 点 会 成 为 很 大 的 瓶 贷 ， 于 是 我 们 就 有 了 避 开 RNN 的 动机 。 
在 这 样 的 背景 下 ， 现 在 关于 去 除 RNN 的 研究 ( 可 以 并 行 计算 的 
RNN 的 研究 ) 很 活跃 ， 其 中 一 个 著名 的 模型 是 Transformer?! 模型 。 
Transformer 是 在 “Attention is all you need” 这 篇 论文 中 提出 来 的 方法 。 
如 论文 标题 所 示 ，Transformer 不 用 RNN， 而 用 Attention 进行 处 理 。 这 

















里 ， 我 们 简单 地 看 一 下 这 个 Transformer。 














除了 Transformer 之 外 ， 还 有 多 个 研究 致力 于 去 除 RNN ， 比 如 用 














卷 积 层 (Convolution 层 ) 代 替 RNN 的 研究 54 。 这 里 我 们 不 



































该 研究 的 细节 ， 基 本 上 就 是 用 卷 积 层 代 替 RNN 来 构成 seq2se 
据 此 实现 并 行 计算 。 






































Transformer 是 基于 Attention 构成 的 ， 其 中 使 用 了 Self- Attenti 


探讨 
q, 并 


on 技 


巧 ， 这 一 点 很 重要 。Self-Attention 直译 为 “自己 对 自己 的 Attention”, tE 
就 是 说 ， 这 是 以 一 个 时 序数 据 为 对 象 的 Attention， 则 在 观察 一 个 时 序数 








据 中 每 个 元 素 与 其 他 元 素 的 关系 。 用 Time Attention 层 来 说 明 的 话 ， 
Attention 如 图 8-37 所 示 。 
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8-37 ” 左 图 是 常规 的 Attention， 右 图 是 Self- Attention 





8.5 Attention 的 应 用 | 367 





在 此 之 前 ， 我 们 用 Attention 求解 了 翻译 这 种 两 个 时 序数 据 之 间 的 对 应 
关系 。 如 图 8-37 的 左 图 所 示 ，Time Attention 层 的 两 个 输入 中 输入 的 是 不 


同 的 时 序数 据 。 与 之 相对 ， 如 图 





之 间 的 对 应 关系 。 








8-37 的 右 图 所 示 ，Self-Attention 的 两 个 输 
和 人 中 输入 的 是 同一 个 时 序数 据 。 像 这 样 ， 可 以 求 得 一 个 时 序数 据 内 各 个 元 素 


至 此 ， 对 Self-Attention 的 说 明 就 结束 了 ， 下 面 我 们 看 一 下 Transformer 


的 层 结构 ， 如 图 8-38 所 示 。 
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图 8-38 Transformer 的 层 结构 (这 里 参考 了 文献 [52] ， 并 简化 了 模型 ) 
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Transformer 中 用 Attention 代 蔡 了 RNN。 实 际 上 ， 由 图 8-38 可 知 ， 
编码 器 和 解码 器 两 者 都 使 用 了 Self-Attention。 图 8-38 中 的 Feed Forward 
层 表 示 前 馈 神经 网 络 ( 在 时 间 方 向 上 独立 的 网 络 )。 具 体 而 言 ， 使 用 具有 一 
个 隐藏 层 、 激 活 函 数 为 ReLU 的 全 连接 的 神经 网 络 。 另 外 ， 图 中 的 Nz K 
示 灰 色 背 景 包 围 的 元 素 被 堆 琶 了 NK 




















图 8-38 显示 的 是 简化 了 的 Transformer 。 实 际 上 ， 除 了 这 个 架构 
7^, Skip Connection, Layer Normalization[s] 等 技巧 也 会 被 用 到 。 
其 他 常见 的 技巧 还 有 , (并行) 使 用 多 个 Attention、 编 码 时 序数 
的 位 置信 息 (Positional Encoding， 位 置 编码 ) 等 。 
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使 用 Transformer 可 以 控制 计算 量 ， 充 分 利用 GPU 并 行 计 算 带 来 的 好 
其 结果 是 ， 与 GNMT 相 比 ，Transformer 的 学 习 时 间 得 以 大 幅 减少 。 


hs NM 


在 翻译 精度 方面 ， 如 图 8-39 所 示 ， 也 实现 了 精度 提升 。 




















英法 翻译 的 精度 


Bi BLEU 





GNMT (RNN) ConvS2S (CNN) Transformer 











图 8-39 使 用 基准 翻译 数据 WMT,， 评价 英法 翻译 的 精度 。 纵 轴 是 翻译 精度 的 指标 
BLEU 值 ， 这 个 值 越 高 越 好 (参考 文献 [53] ) 











图 8-39 比较 了 3 种 方法 。 结 果 是 ， 使 用 卷 积 层 的 seq2seq ( 图 中 记 为 
ConvS2S ) 比 GNMT 精度 高 ， 而 Transformer 比 使 用 卷 积 层 的 seq2seq 还 
要 高 。 如 此 ， 不 仅仅 是 计算 量 ， 从 精度 的 角度 来 看 ，Attention 也 是 很 有 前 
途 的 技术 。 
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我 们 之 前 组 合 使 用 了 Attention 和 RNN， 但 是 由 这 个 研究 可 知 ， 
Attention 其 实 可 以 用 来 替换 RNN。 这 样 一 来 ， 利 用 Attention 的 机 会 可 能 
会 进一步 增加 。 




















8.5.3 NTM 

我 们 在 解决 复杂 问题 时 ， 经 常 使 用 纸 和 笔 。 从 另 一 个 角度 来 看 ， 这 可 以 
解释 为 基于 纸 和 笔 这 样 的 “外 部 存储 装置 "， 我 们 的 能 力 获得 了 延伸 。 同 样 
地 ， 利 用 外 部 存储 装置 ， 神 经 网 络 也 可 以 获得 额外 的 能 力 。 本 节 我 们 讨论 的 
主题 就 是 “基于 外 部 存储 装置 的 扩展 ”。 


RNN 和 LSTM 能 够 使 用 内 部 状态 来 存储 时 序数 据 ， 但 是 它们 的 内 
部 状态 长 度 固定 ， 能 塞 入 其 中 的 信息 量 有 限 。 因 此 ， 可 以 考虑 在 
st L3 


RNN 的 外 部 配置 存储 装置 (内 存 )， 适 当地 记录 必要 信息 。 







































































































































































在 带 Attention 的 seq2seq 中 ， 编 码 器 对 输入 语句 进行 编码 。 然 后 ， 解 
f de x Attention 使 用 被 编码 的 信息 。 这 里 需要 注意 的 仍 是 Attention 的 
存在 。 基 于 Attention， 编 码 器 和 解码 器 实现 了 计算 机 中 的 “内 存 操作 ”。 换 
句 话说， 这 可 以 解释 为 ， 编 码 器 将 必要 的 信息 写 人 人 内存， 解码 器 从 内 存 中 读 
取 必 要 的 信息 。 

可 见 计算 机 的 内 存 操作 可 以 通过 神经 网 络 复 现 。 我 们 可 以 立刻 想到 一 
个 方法 : 在 RNN 的 外 部 配置 一 个 存储 信息 的 存储 装置 ， 并 使 用 Attention 
向 这 个 存储 装置 读 写 必 要 的 信息 。 实 际 上 上， 这样 的 研究 有 好 几 个 ，NTM 
(Neural Turing Machine， 神 经 图 灵机 ) 55] 就 是 其 中 比较 有 名 的 一 个 。 


NTM 是 DeepMind 团 队 进行 的 一 项 研究 ， 后 来 被 改进 成 名 为 DNC 
Ww (Differentiable Neural Computers， 可 微分 神经 讨 算 机 )I561 的 方 

法 。 关 于 DNC 的 论文 发 表 在 了 学 术 期 刊 《 自 然 》 上 。DNC 可 以 认 
门 的 核心 技术 是 一 样 的 。 






































































































































为 是 强化 了 内 存 操作 的 NTM， 但 它 1 


在 解释 NTM 的 内 容 之 前 ， 我 们 先 来 看 一 下 NTM 的 整体 框架 。 图 8-40 
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这 张 有 趣 的 图 片 非 常 适合 用 于 这 一 目的 。 这 是 NTM 所 进行 的 处 理 的 概念 表 
示 ， 很 好 地 总 结 了 NTM 的 精髓 〈 准确 地 说 ， 这 是 发 展 了 NTM 的 DNC 的 
一 篇 解说 文章 BT 中 用 到 的 图 )。 




















8-40 NTM 的 概念 图 ( 引 自 文献 [57] ) 

















现在 我 们 看 一 下 图 8-40。 这 里 需要 注意 的 是 图 中 间 的 一 个 被 称 为 “ 控 
制 器 ”的 模块 。 这 是 处 理 信 息 的 模块 ,我们 假定 它 使 用 神经 网 络 〈 或 者 
RNN )。 从 图 中 可 以 看 出 ， 数 据 “0” 和 “1” 一 个 接 一 个 地 流入 这 个 控制 
器 ， 控 制 器 对 其 进行 处 理 并 输出 新 的 数据 。 

这 里 重要 的 是 ， 在 这 个 控制 器 的 外 侧 有 一 张 “大 纸 ”( 内 存 )。 基 于 这 个 
内 存 ， 控 制 需 获得 了 计算 机 ( 图 灵机 ) 的 能 力 。 上 具体 来 说 ， 这 个 能 力 是 指 ， 
在 这 张 “ 大 纸 ” 上 写 入 必要 的 信息 、 擦 除 不 必要 的 信息 ， 以 及 读 取 必要 信息 
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的 能 力 。 顺 便 说 一 下 ， 因 为 图 8-40 的 “大 纸 ” 是 卷 式 的 ， 所 以 各 个 节点 可 
以 在 需要 的 地 方 读 写 数据 。 换 句 话说， 就 是 可 以 移动 到 目标 地 点 。 

像 这 样 ，NTM 在 读 写 外 部 存储 装置 的 同时 处 理 时 序数 据 。NTM 的 有 
趣 之 处 在 于 使 用 “可 微分 ”的 计算 构建 了 这 些 内 存 操作 。 因 此 ， 它 可 以 从 数 
据 中 学 习 内 存 操作 的 顺序 。 





























计算 机 根据 人 编写 的 程序 进行 动作 。 与 此 相对 ，NTM 从 数据 中 学 
程序 。 也 就 是 说 ,这 意味 着 它 可 以 从 “算法 的 输入 和 输出 ”中 学 
“算法 自身 "(逻辑 )。 
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V. 

















v] 








NTM 像 计算 机 一 样 读 写 外 部 存储 装置 ， 其 层 结构 可 以 简单 地 绘制 
图 8-41。 
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output |t] output [t-4-1] 
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一 | | -—- 1 
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Embedding I i Embedding 
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.oe@ee| 
[0000] 
input[t] | input[t 4-1] 











8-41 NTM 的 层 结构 : 新 出 现 了 Write Head 层 和 Read Head 层 ， 它 们 进行 内 存 
BEES 
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图 8-41 是 简化 版 的 NTM 的 层 结构 。 这 里 LSTM 层 是 控制 器 ， 执 行 
NTM 的 主要 处 理 。Write Head 层 接收 LSTM 层 各 个 时 刻 的 隐藏 状态 ， 将 
必要 的 信息 写 人 内 存 。Read Head 层 从 内 存 中 读 取 重要 信息 ， 并 传递 给 下 
一 个 时 刻 的 LSTM 层 。 
那么 ， 图 8-41 的 Write Head 层 和 Read Head 层 如 何 进 行内 存 操作 呢 ? 
当然 是 使 用 Attention, 


重申 一 下 ， 在 读 取 (或 者 写 入 ) 内 存 中 某 个 地 址 上 的 数据 时 ， 我 们 
需要 先 “ 选 择 ” 数据 。 这 个 选择 操作 自身 是 不 能 微分 的 ， 因 此 先 


用 Attention 选择 所 有 地 址 上 的 数据 ， 再 利用 权重 表示 每 个 数 
贡献 ， 这 样 就 能 够 利用 可 微分 的 计算 替代 选择 这 个 操作 。 
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为 了 模仿 计算 机 的 内 存 操作 ,NTM 的 内 存 操作 使 用 了 两 个 Attention, 
分 别 是 “基于 内 容 的 Attention” 和 “基于 位 置 的 Attention”。 基 于 内 容 的 
Attention 和 我 们 之 前 介绍 的 Attention 一 样 ， 用 于 从 内 存 中 找到 某 个 向 量 
(查询 向 量 ) 的 相似 向 量 。 

而 基于 位 置 的 Attention 用 于 从 上 一 个 时 刻 关注 的 内 存 地 址 〈 内存 的 各 
个 位 置 的 权重 ) 前 后 移动 。 这 里 我 们 省 略 对 其 技术 细节 的 探讨 ， 具 体 可 以 通 
过 一 维 卷 积 运算 实现 。 基 于 内 存 位 置 的 移动 功能 ， 可 以 再 现 “ 一 边 前 进 (一 
个 内 存 地 址 ) 一 边 读 取 ” 这 种 计算 机 特有 的 活动 。 


NTM 的 内 存 操作 比较 复杂 。 除 了 上 面 说 到 的 操作 以 外 ， 还 包括 
锐 化 Attention 权重 的 处 理 、 加 上 上 一 个 时 刻 的 Attention 权重 


的 处 理 等 。 


















































通过 自由 地 使 用 外 部 存储 装置 ，NTM 获得 了 强大 的 能 力 。 实 际 上 ， 对 
于 seq2seq 无 法 解决 的 复杂 问题 ,NTM 取得 了 惊人 的 成 绩 。 具 体 而 言 ， 
NTM 成 功 解决 了 长 时 序 的 记忆 问题 、 排 序 问题 ( 从 大 到 小 排列 数字 ) 等 。 

如 此 ，NTM 借助 外 部 存储 装置 获得 了 学 习 算 法 的 能 力 ， 其 中 Attention 
作为 一 项 重要 技术 而 得 到 了 应 用 。 基 于 外 部 存储 装置 的 扩展 技术 和 Attention 
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会 越 来 越 重 要 ， 今 后 将 被 应 用 在 各 种 地 方 。 


8.6 h 


本 章 我 们 学 习 了 Attention 的 结构 ， 并 实现 了 Attention 层 。 然 后 ， 我 
们 使 用 Attention 实现 了 seq2seq， 并 通过 简单 的 实验 ,确认 了 Attention 
的 出 色 效 果 。 另 外 ， 我 们 对 模型 推理 时 的 Attention 的 权重 ( 概率 ) 进行 了 
可 视 化 。 从 结果 可 知 ， 具 有 Attention 的 模型 以 与 人 类 相同 的 方式 将 注意 力 
放 在 了 必要 的 信息 上 。 

另外 ， 本 章 还 介绍 了 有 关 Attention 的 前 沿 研究 。 从 多 个 例子 可 知 ， 
Attention 扩展 了 深度 学 习 的 可 能 性 。Attention 是 一 种 非常 有 效 的 技术 ， 
具有 很 大 潜力 。 在 深度 学 习 领 域 , 今后 Attention 自己 也 将 吸引 更 多 的 “ 注 
意 力 ”。 
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在 翻译 、 语 音 识别 等 将 一 个 时 序数 据 转换 为 另 一 个 时 序数 据 的 任务 
中 ， 时 序数 据 之 间 常 常 存在 对 应 关系 

Attention 从 数据 中 学 习 两 个 时 序数 据 之 间 的 对 应 关系 

Attention 使 用 向 量 内 积 (方法 之 一 ) 计算 向 量 之 间 的 相似 度 ， 并 输 
出 这 个 相似 度 的 加 权 和 向量 

因为 Attention 中 使 用 的 运算 是 可 微分 的 ， 所 以 可 以 基于 误差 反 向 传 
播 法 进行 学 习 

通过 将 Attention 计算 出 的 权重 ( 概率 ) 可 视 化 ， 可 以 观察 输入 与 输 
出 之 间 的 对 应 关系 

在 基于 外 部 存储 装置 扩展 神经 网 络 的 研究 示例 中 ，Attention 被 用 来 
读 写 内 存 














附录 A 
sigmoid 函数 和 tanh 函数 的 导数 





神经 网 络 使 用 各 种 各 样 的 激活 函数 ， 这 里 将 讨论 具有 代表 性 的 sigmoid 
函数 和 tanh 函数 ， 使 用 两 种 不 同 的 方法 计算 这 两 个 函数 的 导数 。 具 体 来 说 ， 
就 是 使 用 计算 图 计算 sigmoid 函数 的 导数 ， 使 用 数学 式 计 算 tanh 函数 的 导 
数 。 通 过 理解 各 个 方法 ， 来 熟悉 导数 的 计算 。 
A.1 sigmoid 函数 

sigmoid 函数 可 用 下 式 表示 : 


1 
dab exp(—z) (A.1) 


此 时 ， 式 (A.1) 的 计算 图 如 图 A-1 所 示 。 























A-1 Sigmoid 层 的 计算 图 
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在 图 A-1 中 ,， 除 了 “x” 和 “十 ”节点 之 外 ， 还 有 exp 和 “/” 贡 点 。 
exp 节点 进行 y= exp (x) 的 计算 ,“/” 和 节点 进行 y= 二 的 计算 。 现 在 ,我 
们 使 用 计算 图 ， 来 逐一 确认 它们 的 反 向 传播 。 








步骤 1 
“/” 节 点 表示 y = 二， 它 的 导数 可 以 解析 性 地 如 下 表示 : 








E --h--(i)--e (A3) 


x? zr 


基于 式 (A.2)， 在 反 向 传播 时 ， 对 上 游 的 梯度 乘 以 一 y? ( 正 向 传播 的 输 
出 的 平方 取 负 )， 再 传递 给 下 游 ， 如 图 A-2 所 示 。 














X EU «s exp(-z) —.l-exp(-z),— y 
(x) + exp) { + Ja E : 
— ;—/ 8L, '—^ 8L 
cg 
dy dy 
=Í 1 











A-2 反 向 传播 的 步骤 1 


步骤 2 
“十 ”节点 将 上 游 的 值 原 样 传递 给 下 游 ， 它 的 计算 图 如 图 A-3 所 示 。 














化 =T  -—.exp(-z) —J-exp(-z),— y 
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A-3 反 向 传播 的 步骤 2 
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步骤 3 
exp 节点 表示 yy = exp (7)， 它 的 导数 可 用 下 式 表示 : 


[am exp(x) ( A.3) 


在 计算 图 中 ,对 上 游 的 梯度 乘 以 正 向 传播 时 的 输出 ( 此 处 为 exp (一 z) )， 
再 传递 给 下 游 (图 A-4 )。 








TA c ~n exp(-z) —.l-cexp(-z) 一 
= X e (exp! ~ +) / ) a 
f y^ exp( "s ES 1 
/ 0 / Oy Oy 
—1 / l 7 











A-4 反 向 传播 的 步骤 3 


步骤 4 
“x” 节 点 乘 以 将 正 向 传播 时 的 输入 交换 后 的 值 ， 这 里 乘 以 -1 (图 A-5 )。 

















化 7 一 此 、exp( 一 x) P 1 二 exp( 一 7)， ETN y 
a— x Jep la + J——À / e 
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p Rea) p^ wee oy" / oy " oy 
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A-5 sigmoid 函数 的 计算 图 ( 反 向 传播 ) 


如 上 所 示 ，Sigmoid 层 可 以 按 图 A-5 的 计算 图 进行 反 向 传播 。 从 图 A-5 
的 结果 可 知 ， 反 向 传播 的 输出 是 绢 yexp( 一 z)， 这 个 值 被 传递 给 下 游 节 
点 。 这 个 影 妨 exp(-z) 可 以 进一步 整理 如 下 ; 
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OL 1 

Oy (1 + exp(-2)) 
|. OL 1 exp(—z) 

Oy 1 4-exp(—2) 1 + exp(-x) (A.4) 








2 
oy" exp(-2) = z exp(-a) 








OL 
= a, 78 — y) 


由 式 (A-4) 的 展开 可 知 ， 仅 根据 正 向 传播 时 的 输出 ， 就 可 以 计算 sigmoid 
函数 的 反 向 传播 。 综 上 所 述 ，sigmoid 函数 的 计算 图 可 以 画 成 图 A-6。 
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A-6 sigmoid 函数 的 计算 图 

















以 上 就 是 sigmoid 函数 的 导数 。 这 里 使 用 计算 图 计算 了 sigmoid 函数 的 
导数 。 下 面 来 看 一 下 如 何 解 析 性 地 计算 tanh 函数 的 导数 。 
































A.2 tanh 函数 








tanh 函数 也 称 为 双 曲 正切 ( hyperbolic tangent ) 图 数 ， 可 以 用 式 (A.5) 
表示 : 








e" —e 


eT e77 





y —tanh(r) = (A.5) 





我 们 的 目标 是 对 式 (A.5) 求 型 。 因 此 ， 这 里 使 用 下 面 的 导数 公式 : 
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| (A.6) 


/ 
o 





式 (A.6) 是 分 数 函 数 的 导数 公式 。 为 了 便于 观察 ， 这 里 将 13 iow C183 
同样 地 ， 将 f(z) 关于 z 的 导数 记 为 f Gn). 
另外 ， 关 于 纳 皮 尔 数 (e )， 可 以 解析 性 地 推导 出 下 面 的 导数 : 











de” 
r A.T 
2 (A.7) 
Be * in 
B 7s (A.8) 


通过 使 用 上 面 的 式 (A.6)、 式 (A.7) 和 式 (A.8), tanh 函数 的 导数 可 以 
如 下 求 出 : 





(e ce 7)(e” Tte) ERN (e? A e ")(e* m" e 7) 











Otanh(z) 
Or (ez + e-2)? 
| 
xu fiiere (A-9) 
(e ec) 
= 1 — tanh(z)? 
21-3? 











如 式 (A.9) 所 示 ， 使 用 分 数 函 数 的 导数 公式 ， 并 对 公式 进行 简单 的 整 
理 ， 就 可 以 求 出 tanh 函数 的 导数 ， 结 果 是 1 — 内。 根据 这 个 结果 ，tanh K 


数 的 计算 图 可 以 绘制 成 图 A-7。 
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A-7 tanh 函数 的 计算 图 


以 上 就 是 tanh 函数 的 导数 的 推导 过 程 。 我 们 通过 展开 数学 式 ， 简 洁 明 
了 地 求 得 了 导数 。 





A.3 小 结 


以 上 我 们 分 别 用 计算 图 和 解析 性 的 方法 求解 了 导数 。 两 种 方法 殊 途 同 
归 ， 读 者 可 以 根据 不 同 的 问题 选择 合适 的 方法 。 不 过 ， 在 习惯 之 后 ， 可 能 会 
觉得 使 用 数学 式 的 方法 更 加 方便 。 而 在 刚 开 始 时 ， 可 能 计算 图 这 种 直观 的 方 
法 比较 好 (特别 是 心中 有 疑惑 时 )。 能 用 多 个 方法 解决 问题 非常 重要 ! xU 
本 附录 这 样 ， 在 解决 问题 时 ， 有 时 使 用 数学 式 ， 有 时 使 用 计算 图 ， 这 可 以 加 
深 我 们 的 理解 。 























附录 B 
WordNet 


mi 
=a 


在 本 附录 中 ， 我 们 将 实际 运行 一 下 WordNet， 来 看 一 下 WordNet 中 存 
在 什么 样 的 “知识 ”。 另 外 ， 这 里 的 实现 只 是 为 了 让 读者 对 该 同义词 库 有 所 
了 解 ， 所 以 进行 的 实验 非常 简单 。 


本 附录 将 简单 介绍 WordNet 和 NLTK 。《 自然 语言 处 理 入 门 [14] 
书 中 有 关于 NLTK 的 详细 说 明 ， 感 兴趣 的 读者 可 以 参考 一 下 。 




































































BJ NLTK 的 安装 








通过 Python 利用 WordNet， 可 以 使 用 NLTK (Natural Language 
Toolkit， 自 然 语言 处 理工 具 包 ) 这 个 库 。NLTK 是 用 于 自然 语言 处 理 的 
Python 库 ， 其 中 包含 许多 自然 语言 处 理 相 关 的 便捷 功能 ， 比 如 词性 标注 、 
句法 分 析 、 信 息 抽 取 和 语义 分 析 等 。 

现在 我 们 就 来 安装 NLTK。 安 装 方 法 有 很 多 ， 这 里 介绍 如 何 使 用 pip 进 
行 安装 (其 他 的 安装 方法 ， 请 读者 根据 自身 环境 自行 尝试 )。 

要 安装 NLTK, ， 需 要 向 终端 输入 下 面 一 行 代码 。 


















































$ pip install nltk 
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这 样 NLTK 的 安装 就 结束 了 安装 需要 一 些 时 间 )。 在 安装 结束 后 ， 导 
入 NLTK， 以 确认 安装 是 否 成 功 。 























>>> import nltk 


>>> 























这 里 ， 启 动 Python 解释 器 ， 导 入 NLTK。 如 果 NLTK 安装 正确 ， 则 
如 上 所 示 ， 不 显示 任何 错误 。 

















B.2 ”使 用 WordNet 获 得 同义词 


下 面 ， 我 们 来 实际 使 用 一 下 WordNet。 首 先 ， 从 nltk.corpus 中 导入 
wordnet 模块 。 





>>> from nltk.corpus import wordnet 





准备 完毕 。 我 们 试 着 查看 一 下 单词 car 的 同义词 ， 在 此 之 前 ,我 们 先 看 
一 下 单词 car 存在 多 少 个 不 同 的 含义 。 为 此 ， 使 用 vordnet. synsets O 方法 。 














f£ WordNet 中 ， 每 个 单词 都 被 归 类 到 了 名 为 synset BS [al V. ig S Hn. 
为 了 得 到 car 的 同义词 复 ， 只 需要 调用 wordnet.synset () 方 法 。 这 
里 有 一 点 需要 注意 ， 那 就 是 单词 car( 和 其 他 许多 单词 一 样 ) 存 在 多 
个 含义 。 上 县 体 来 说 ， 除 了 “汽车 ” 的 含义 之 外 , 它 还 有 “(火车 ) 
E Pie’ 的 含义 。 因 此 ， 在 获得 同义词 时 ， 需 要 (从 多 个 含义 中 ) 


指定 是 哪个 含义 。 


















































































































































现在 ， 我 们 尝试 用 WordNet 获得 car 的 同义词 。 


>>> wordnet.synsets('car') 
[Synset('car.n.01'), 
Synset('car.n.02'), 
Synset('car.n.03'), 
Synset('car.n.04'), 
Synset('cable car.n.01')] 
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这 里 输出 了 一 个 包含 5 个 元 素 的 列表 ， 这 表示 car 这 个 单词 被 定义 了 5 
种 不 同 的 含义 ( 严格 来 说 ， 是 5 个 不 同 的 同义词 簇 )。 

还 有 一 点 需要 注意 的 是 ， 上 面 的 列表 中 的 元 素 显示 的 是 car 的 “标题 
i". WEI B-1 所 示 ，WordNet 中 使 用 的 标题 词 由 被 “.” 切 分 的 3 个 元 素 指 
定 。 比 如 ,“car.n.01” 这 个 标题 词 表 示 “car 的 第 1 个 名 词 ” 的 含义 ( 簇 )。 



































car.n.O1 
OCC 单词 名 称 
-一 一 属性 ( 名词、 动词 等 ) 
ERII 











B-1 WordNet 中 的 标题 词 的 解读 方法 : nÆ noun (名 词 ) 的 首 字母 











许多 单词 都 有 多 个 含义 。WordNet 中 使 用 标题 词 从 单词 的 多 个 
含义 中 指定 某 个 特定 的 含义 。 因 此 , 一 般 情况 下 , 在 WordNet 
的 方法 中 需要 给 参数 指定 单词 名 称 时 ， 不 是 指定 “car”， 而 是 指 


定 “car.n.01” 或 者 “car.n.02” 这 样 的 标题 词 。 















































































































































下 面 ， 我 们 来 确认 “car.n.01” 这 一 标题 词 指定 的 同义词 的 含义 。 为 此 ， 
使 用 wordnet.synset() 方法 ， 获 取 “car.n.01” 的 同义词 复 。 另 外 ， 对 该 同 
义 词 簇 调用 definition() 方法 。 























>>> car = wordnet.synset('car.n.01') # [uk 

>>> car.definition() 

'a motor vehicle with four wheels; usually propelled by an internal 
combustion engine' 




















上 面 的 结果 可 直译 为 “使 用 内 燃 机 驱动 的 有 4 个 车 轮 的 机 动车 ”>， 这 就 
是 “car.n.01” 这 个 同义词 篮 的 含义 。 另 外 ， 这 里 使 用 的 definition() 方法 
主要 是 用 来 帮助 人 ( 而 非 计算 机 ) 理解 该 单词 的 。 

现在 我 们 来 实际 看 一 下 “car.n.01” 这 个 标题 词 的 同义词 簇 中 有 什么 样 
的 单词 。 为 此 ， 使 用 lemma_names() 方法 。 
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>>> car.lemma names() 


['car', 'auto', 'automobile', 'machine', 'motorcar'] 








如 此 ， 使 用 Lemma names) 方法 ， 可 以 获得 同义词 簇 中 存在 的 单词 名 称 。 
从 上 面 的 结果 可 知 ， 在 car 这 个 单词 ( 严格 地 讲 ， 是 “car.n.01” 这 个 标题 
词 ) 中 ， 有 auto、automobile、machine 和 motorcar 这 4 个 单词 被 定义 为 
了 同义词 。 





B.3 ” WordNet 和 单词 网 络 





接 下 来 ,我们 使 用 car 的 单词 网 络 ， 查 看 一 下 它 和 其 他 单词 在 语义 上 的 
上 下 位 关系 。 为 此 ， 可 以 使 用 hypernym_paths() 方法 。hypernym 主要 是 语 
言 学 中 用 到 的 单词 ， 意 思 是 “上 位 词 ”。 























>>> car.hypernym paths()[0] 

[Synset('entity.n.01'), Synset('physical entity.n.01'), 

Synset('object.n.01'), Synset('whole.n.02'), Synset('artifact.n.01'), 

Synset('instrumentality.n.03'), Synset('container.n.01'), 

Synset('wheeled vehicle.n.01'), Synset('self-propelled vehicle.n.01'), 
(C 


Synset('motor vehicle.n.01'), Synset('car.n.01')] 

















从 上 面 的 结果 可 知 ，car 这 个 单词 从 entity 这 个 单词 出 发 ， 经 过 了 
"entity 一 physical_entity 一 object — :-:— motor vehicle — car” 这 一 
路 径 (此 处 省 略 了 “标题 词 ” 的 标记 )。 这 里 具体 看 一 下 各 个 单词 ，car 的 
上 一 层 是 motor vehicle ( 机 动车 )， 再 上 一 层 是 self-propelled vehicle ( 自 
走 式 车 辆 )， 继 续 往 上 是 object, entity 等 抽象 单词 。 在 构成 WordNet 的 单 
词 网 络 中 ， 各 个 单词 被 配置 成 越 往 上 走 越 抽象 ， 越 往 下 走 越 具 体 。 





















































口 














在 上 面 的 例子 中 ，car.hypernym paths() 返回 列表 ， 该 列表 元 素 
中 包含 了 具体 的 路 径 信 息 。 为 什么 要 返回 列表 呢 ? 因为 单词 之 间 
的 路 径 可 能 存在 多 个 。 就 上 面 的 例子 来 说 ， 从 起 点 单词 entity 到 


终点 单词 car 有 多 条 路 径 ( 有 的 单词 可 能 只 有 一 条 路 径 )。 
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B.4 基于 WordNet 的 语义 相似 度 





如 前 所 述 ，WordNet 中 许多 单词 根据 同义词 (近义词 ) 被 分 组 。 另 外 ， 
单词 之 间 被 构建 了 语义 网 络 。 这 些 单词 之 间 的 关联 知识 可 以 应 用 在 很 多 问题 
中 。 这 里 ， 我 们 来 看 一 个 计算 单词 之 间 的 相似 度 的 例子 。 

求 单词 之 间 的 相似 度 ， 可 以 使 用 path_simitarity() 方法 。 这 个 方法 返 
回 单词 之 间 的 相似 度 ， 其 返回 值 是 0 ~ 1 的 实数 ( 数值 越 大 ， 越 相似 )。 现 
在 我 们 实际 地 求 一 下 单词 之 间 的 相似 度 。 这 里 分 别 求 单词 car (汽车 ) 和 
novel (小 说 )、dog ( 狗 ), motorcycle (摩托 车 ) 之 间 的 相似 度 。 




















>>> car = wordnet.synset('car.n.01') 

>>> novel = wordnet.synset('novel.n.01') 

>>> dog = wordnet.synset('dog.n.01') 

>>> motorcycle = wordnet.synset('motorcycle.n.01') 


>>> car.path similarity(novel) 
0.05555555555555555 

>>> car.path similarity(dog) 
0.07692307692307693 

>>> car.path similarity (motorcycle) 
0.3333333333333333 


从 上 面 的 结果 可 知 ， 对 于 单词 car, Jis] motorcycle 的 相似 度 最 高 ， 其 
次 是 dog， 最 不 相似 的 单词 是 novel。 从 相似 度 的 值 来 看 ，car 和 motorcycle 
的 相似 度 很 大 ， 值 比 其 他 两 个 单词 大 很 多 倍 。 这 些 结果 可 以 说 很 接近 我 们 的 
感觉 。 

上 例 中 用 到 的 path_simitarity() 方法 会 在 内 部 基于 图 B-2 所 示 的 单词 
网 络 的 公共 路 径 计算 单词 之 间 的 相似 度 。 
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B-2 基于 单词 网 络 的 公共 路 径 计算 单词 的 语义 相似 度 ( 虚线 表示 途中 还 有 多 个 单词 ) 

















图 B-2 展示 了 WordNet 的 部 分 单词 网 络 〈 省略 了 途中 的 单词 )。 从 该 


图 可 知 ，car 和 motorcycle 之 间 有 许多 公共 路 径 。 实 际 上 ， 它 们 到 倒数 (从 
底部 数 ) 第 二 个 单词 motor vehicle 的 路 径 是 相同 的 。 比 较 car 和 dog 可 以 
发 现 ， 它 们 的 路 径 在 单词 object 处 分 又 了 。 再 比较 car 和 novel 可 以 发 现 ， 


它们 的 路 径 在 


法 基于 这 些 信 ， 


da 
感觉 。 





最 上 面 的 单词 entity 处 就 已 经 分 又 了 。path_simitarity() 方 
息 计 算 单 词 之 间 的 相似 度 ，( 在 本 例 中 ) 其 结果 很 接近 我 们 的 











像 这 样 ， 使 用 单词 网 络 ， 可 以 计算 两 个 单词 之 间 的 相似 度 。 计 算 单 词 之 
间 的 相似 度 意味 着 我 们 可 以 测量 单词 和 单词 在 语义 上 的 距离 。 而 如 果 没 有 理 
解 单词 含义 ， 就 没有 办 法 正确 完成 此 类 任务 。 从 这 一 点 来 看 ， 同 义 词 库 可 以 
说 (间接 ) 赋予 了 计算 机 理解 单词 含义 的 能 












































除了 path_similarity() 方 法 之 外 ，WordNet 中 还 提供 了 几 个 用 来 
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[2 























量 相 似 度 的 方法 (比如 Leacock-Chodorow 相 似 度 、Wu-Palmer 




















似 度 等 )。 感 兴趣 的 读者 请 参考 WordNet HI Web xz f 9] 。 














附录 C 
GRU 


第 6 章 详细 介绍 了 Gated RNN 的 LSTM。LSTM 是 一 个 非常 好 的 层 ， 
但 是 它 的 参数 太 多 ， 计 算 需 要 很 长 时 间 。 因 此 ， 最 近 业 界 又 提出 了 很 多 用 来 
替代 LSTM 的 Gated RNN。 这 里 ， 我 们 介绍 一 下 GRU (Gated Recurrent 
Unit， 门 控 循 环 单元 ) 2) 这 个 有 名 的 Gated RNN。GRU 保留 了 LSTM 
使 用 门 的 理念 ， 但 是 减少 了 参数 ， 缩 短 了 计算 时 间 。 现 在 ， 我 们 来 看 一 下 
GRU 的 内 部 结构 。 

















C1 GRU 的 接口 


LSTM 的 重点 是 使 用 门 ， 因 此 学 习 时 梯度 的 流动 平稳 ， 梯 度 消失 得 以 
缓解 。GRU 也 继承 了 这 一 想法 。 不 过 ，LSTM 和 GRU 存在 几 个 差异 ， 主 
要 区 别 在 于 层 的 接口 ， 如 图 C-1 所 示 。 
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C-1 LSTM 和 GRU 的 比较 


如 图 C-1 所 示 ， 相 对 于 LSTM 使 月 


隐藏 状态 和 记忆 单元 两 条 线 ，GRU 

















只 使 用 隐藏 状态 。 顺 便 说 一 下 ， 这 和 第 5 章 讨 论 的 “简单 RNN” 的 接口 
相同 。 
LSTM 的 记忆 单元 是 私有 存储 ， 对 其 他 层 不 可 见 。LSTM 将 必要 信 
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对 ，GRU 中 不 需要 记忆 单 














C2 ”GRU 的 计算 图 


现在 ， 我 们 看 一 下 GRU 内 部 进行 


息 记 录 在 记忆 单元 中 ， 并 基于 记忆 单元 


的 信息 计算 隐藏 状态 。 与 此 
元 这 样 的 额外 存储 。 








的 计算 。 这 里 用 数学 式 表 示 GRU 


中 进行 的 计算 ， 并 给 出 与 之 对 应 的 计算 图 。 另 外 ， 计 算 图 使 用 在 第 6 章 的 


LSTM 的 计算 图 





中 使 用 的 o 和 tanh 等 简化 版 节点 。 


z = ao(ZiT + hii WP + 99) 


r — c(zi WO? + hii WP +) 





h = tanh(z Wz + (r © hi_1)Wh + b) 


ht = (1 — z) 


Ohii4zoh 


(C.1) 


(60:2) 


( C.3) 


(C.4) 
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GRU 中 进行 的 计算 由 上 述 4 个 式 子 表示 (这 里 x fU hoi 都 是 行 向 量 )， 
对 应 的 计算 图 如 图 C-2 所 示 。 












































ht 
ht | S > X | E. | ht 
| : | 
x « 1 一 |) E 3e 
r| z~ h| 
| o | c tanh 
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Tt 











C-2 GRU 的 计算 图 : o 节 点 和 tanh 节点 有 专用 的 权重 , 节点 内 部 进行 仿 射 变换 (“1 一 ” 
PARAT, 输出 1 一 r) 


如 图 C-2 所 示 ，GRU 没有 记忆 单元 ， 只 有 一 个 隐藏 状态 h 在 时 间 方 向 
上 传播 。 这 里 使 用 7 和 z 共 两 个 门 (LSTM 使 用 3 个 门 ), m 称 为 reset 门 ， 
之 称 为 update 门 。 

r( reset] ) 决 定 在 多 大 程度 上 “忽略 ”过 去 的 隐藏 状态 。 根 据 式 (C.3)， 
如 果 7 是 0， 则 新 的 隐藏 状态 及 仅 取决 于 输入 xt。 也 就 是 说 ， 此 时 过 去 的 隐 
藏 状态 将 完全 被 忽略 。 

而 update 门 是 更 新 隐藏 状态 的 门 ， 它 扮演 了 LSTM 的 forget |] f 
input 门 两 个 角色 。 式 (C.4) 的 (1 一 z) © hi-1 部 分 充当 forget 门 的 功能 。 
根据 这 个 计算 ， 从 过 去 的 隐藏 状态 中 删除 应 该 被 遗忘 的 信息 。z © h 的 部 分 
充当 inpnut 门 的 功能 ， 对 新 增 的 信息 进行 加 权 。 
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综 上 ，GRU 是 简化 了 LSTM 的 架构 ,与 LSTM 相 比 ， 可 以 减少 计算 
成 本 和 人 参数。 这 里 ， 我 们 不 进行 GRU 层 的 实现 ， 它 的 代码 在 common/time_ 
layers.py 中 ， 感 兴趣 的 读者 可 以 参考 一 下 。 














那么 ， 我 们 应 该 使 用 LSTM 和 GRU 中 的 哪 一 个 呢 ? 由 文献 [32] 和 
文献 [33] 可 知 ， 根 据 不 同 的 任务 和 超 参 数 设置 ， 结 论 可 能 不 同 。 在 
最 近 的 研究 中 ，LSTM (以 及 LSTM 的 变 体 ) 被 大 量 使 用 , 而 GRU 
的 人 气 也 在 稳步 上 升 。 因 为 GRU 的 超 参数 少 、 计 算 量 小 ， 所 以 特 
别 适 合用 于 数据 集 较 小 、 设 计 模 型 需要 反复 实验 的 场景 。 
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为 了 登 上 险峰 ， 一 开始 要 走 得 慢 一 点 。 
一 一 莎士比亚 


至 此 ， 我 们 在 深度 学 习 的 世界 中 探索 了 自然 语言 处 理 这 一 主题 。 实 际 
上 ,我 们 实现 了 关于 自然 语言 处 理 的 各 种 代码 ， 并 通过 大 量 实验 学 习 了 若干 
个 重要 技术 ， 和 希望 读者 能 够 从 这 些 经 历 中 学 到 一 些 东 西 。 如 果 读者 感受 到 了 
其 中 的 乐趣 与 深奥 ， 那 笔者 将 感到 无 比 开 心 。 

现在 ， 深 度 学 习 领 域 正在 加 速 发 展 ， 几 乎 每 天 都 有 大 量 论文 发 表 ， 新 的 
想法 接连 不 断 地 被 提出 来 。 遗 憾 的 是 ， 我 们 没有 办 法 把 所 有 论文 都 看 一 遍 。 
今后 深度 学 习 将 如 何 发 展 ， 谁 也 无 法 准确 预测 。 

此 外 ,深度 学 习 中 的 重要 技术 ( 在 某 种 程度 上 ) 正 在 固定 下 来 。 我 相信 ， 
本 书 介绍 的 围绕 自然 语言 处 理 的 技术 今后 仍 将 十 分 重要 。 希 望 读者 能 够 立足 
于 从 本 书 学 到 的 知识 ， 在 更 广阔 的 深度 学 习 世 界 里 走 得 更 扎实 。 

本 书 到 此 结束 。 非 常 感谢 大 家 阅读 本 书 。 从 历史 的 角度 来 看 ， 我 们 这 一 
代目 睹 了 深度 学 习 如 何 一 步 一 步 地 渗入 世界 ， 并 改变 世界 。 笔 者 只 是 幸运 地 
出 生 在 这 一 时 代 ， 并 恰巧 写 了 关于 这 一 主题 的 书 。 很 高 兴 有 此 缘分 让 笔者 通 
过 本 书 和 大 家 进行 了 交流 。 十 分 感谢 ! 












































致谢 


本 书 的 存在 离 不 开 伟 大 的 先驱 们 对 深度 学 习 、 人 工 智能 和 自然 科学 的 推 
动 。 首 先 ， 笔 者 想 感谢 他 们 。 其 次 ， 还 要 感谢 身边 朋友 的 支持 和 帮助 。 他 们 
直接 或 者 间接 地 鼓励 、 文 持 着 我 。 谢 谢 ! 

作为 一 个 新 的 尝试 ， 本 书 使 用 了 “公开 审 稿 ”的 校 稿 方式 。 在 这 次 公 
开 审 稿 中 ， 原 稿 被 公开 在 Web 上 ， 任 何人 都 可 以 阅读 和 评论 。 结 果 ， 仅 一 
个 月 的 审 稿 时 间 ， 我 们 就 收 到 了 1500 多 条 有 用 的 评论 。 感 谢 所 有 参加 审 稿 
的 朋友 ! 毫 无 疑问 ， 正 是 大 家 的 评论 让 本 书 得 到 了 进一步 的 完善 。 谢 谢 大 
家 ! 当然 ,本 书 中 存在 的 不 完善 之 处 或 者 错误 ， 均 是 笔者 的 责任 ， 与 评论 者 
无 关 。 

最 后 ， 本 书 的 出 版 还 要 归功 于 世界 各 地 人 民 。 笔 者 每 天 都 在 受到 许多 不 
知道 名 字 的 人 的 影响 ， 缺 少 其 中 任何 一 个 人 ， 本 书 可 能 就 不 存在 了 (至少 不 
是 现在 这 种 状态 )。 这 些 话 也 同样 可 以 对 周围 的 自然 界 说 ， 河 流 、 树 木 、 大 
地 、 天 空中 都 有 我 的 日 常生 活 。 感 谢 这 些 无 名 的 人 ， 无 名 的 自然 。 
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5-14 Truncated BPTT 的 数据 处 理 顺 序 
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6-34 变 分 Dropout 的 例子 : 具有 相同 图 示 的 Dropout 使 用 相同 的 mask。 像 这 样 ， 
位 于 同一 层 的 Dropout 使 用 相同 的 mask， 对 时 间 方 向 上 的 Dropout 也 有 效果 
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图 8-36 ”GNMT 的 精度 评价 : 纵 轴 是 人 按照 0~6 对 翻译 质量 进行 的 评价 ( 引 自 文献 [51]) 
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深度 学 习 进 阶 : 自然 语言 处 理 


畅销 书 《深度 学 习 入 门 : 基于 Python 的 理论 与 实现 》 续 作 
带 你 快速 直达 自然 语言 处 理 领域 | 


本 书 有 什么 特点 ? 


简明 易 懂 
本 书 内 容 精 炼 ， 聚 焦 深度 学 习 视角 下 的 自然 语言 处 理 ， 延 续 前 作 的 行文 风 
J&, 采用 通俗 的 语言 和 大 量 直观 的 示意 图 详细 讲解 ， 帮 助 读者 加 深 对 深度 学 
习 技 术 的 理解 ， 轻 松 入 门 自然 语言 处 理 。 


m 侧重 原理 
不 依赖 外 部 库 ， 使 用 Python 3 从 零 开 始 创建 深度 学 习 程 序 ， 通 过 亲自 创建 
程序 并 运行 ， 读 者 可 透彻 掌握 word2vec、RNN、LSTM 、GRU、seq2seq 和 
Attention 等 技术 背后 的 运行 原理 。 


m 学 习 曲 线 平 组 


按照 “文字 介绍 一 代码 实现 一 分 析 结 果 一 发 现 问题 一 进行 改善 ”的 流程 ， 逐 
步 深 入 ， 读 者 只 需 具 备 基础 的 神经 网 络 和 Python 知识 ， 即 可 轻松 读 懂 。 
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